「 は じ め て の カー ネル 」 ず 。 


注目 の 新 機能 や 
次 此 代 技術 お. 


| メモ リー 管理 Btrfs 仮想 化 . 
SSD 対 応 nftables トレ ー ス 


まず は マン ガ を 読み な が ら 、 カー ネル に つい て ざっ くり と 理解 し まし ょ う 。 
細か い 仕 組み を 勉強 する の は 、 そ の 後 か ら で 構い ませ ん 。 


[ 思 還 1] マン ガ で 分 か る 役割 と 機能 6 
カー ネル の 基本 ボイン ト 1 


F 力 三 ネリ レ の 動作 を 知る @⑳ 


簡単 な コマ ンド を 実行 する だ け で カー ネル の 動き が 分 か り ます 。 
実際 に Linux を 触り な が ら 、 仕 組み と 動作 を 詳し く 見 て いき まし ょ う 。 


[ 思 醒 ] 動作 の 仕組 み を 解き 明か す 23 
[ 思 鞭 】 トレ ー サ ー で 詳し く 見 る 3 


注目 の 新 給 能 や 交代 役 錠 を 知る O/ 、、 


カー ネル は 常に 進化 し て いま す 。 比較 的 最近 実装 され た 新 機能 、 
面白 い 新 機能 、 注目 し て お きた い 次 世代 機能 を 紹介 し ます 。 


[ 思 還 ] 最新 カー ネル の 技術 を 見 る *e 
[ 思 枝 】 こん な に 面白 い 技術 が ある ss 


芝 三 ネル の 開発 世に 所 王 っ 5 


カー ネル の 開発 は 、 ボラ ンティア と し て 集まっ た 開発 者 の コミ ュ ニ ティ ー に より 行わ れ て いま す 。 
最新 の 開発 状況 と コミ ュ ニ ティ ー に つい て 見 て み ま し ょ う 。 


開発 状況 si 
[ 札 』 開発 コミ ュ ニ ティ ー 8 


= グ ハ \ ツ ア し 
4 bh ベル ンプ AZ こ ノ いて か 


カー ネル の ソー スコ ー ド は 誰 で も 入手 で きま す 。 
最新 カー ネル を コン バイ ル し て イン ス トー ル で きる 状態 に ビル ド し 、Linux に 導入 し て み ま し よう 。 


【 読 者 限定 サイ ト 】 本 書 に 関連 する ファ イル の 入手 先 

URL 「http://nlinuxjp/201 4/kermel/] を Web ブ ラウ ザー な ど で 開 き 、 ユーザ ー 名 「kernell、 バ スワ ー ド 「w32saAld] 
を 入力 し て くだ さい 。 ダウ ン ロ ー ド ファ イル の 一 覧 が 表示 され ます 。 ダウ ン ロ ー ド し て ご 活用 くだ さい 。 な お 収録 され て い 
る 独自 の プログ ラム 、 映像 、 デ ー タ 等 の 一 部 また は 全部 を 、 日 経 BP 社 に 無断 で 複製 、 転載 、 配信 等 を する こと 、 と 力 所 以上 
か ら ア クセ ス 可 能 な 環境 で 使用 する こと 、 その他 日 経 BP 社 の 権利 を 侵害 する 一 切 の 行為 を 禁じ ます 。 


| 較 人 中 由記 の ネル の ) 生 入 の 1D) 


CPU や メモ リー な どの 資源 を うま く 制 御 し て 1 つの Linux 上 で 複数 の Linux を 動作 させ る 
コン テナー 技術 が 話題 で す 。 その コン テナー 技術 に つい て 詳し く 紹 介し ます 。 


[ 思 醒 ] コン テナー と リソー ス 制 御 2 

[ 札 ヨ 3 リソー ス を 管理 する cgroup % 

[ 樹 】 独立 し た 環境 を 作れ る namespace %5 
[ 思 服 】 アプ リケーション 配備 基盤 の Docker ss 


カー ネル に つい て し っ か り 学 べ る よう に 、 6 つの バー ト に 分 け て 仕組 み を 紹介 し ます 。 
Linux 上 で 動作 を 確認 し な が ら 、 こ こ で 完全 に カー ネル を 理解 し まし ょ う 。 


[ 思 馬 ] カー ネル の 全体 像 [ 札 字 】 TCP/IP ネッ トワ ー ク 20 
[ 札 罰 d プロ セス と メモ リー 管理 1 [ 札 証 ヨ d デバ イス is 
[ 思 胃 】 ファ イル シス テム と ブロ ッ ク レ イヤ ー ii [ 置 置 3 リソー ス 制 御 32 


嘩 逢 つ 2 ぐ お さだ い カ ニ ネ リル の 技術 AE 


カー ネル に は さま ざま な 技術 が 使わ れ て いま す 。 
ディ スク 、 プロ セス 、 セ キュ リティ 、 イ ベン ト 、 仮想 化 な ど に 関連 する 14 個 の 機能 を 紹介 し ます 。 


dm の シン プロ ビジ ョ ニン グ 対 応 1s DcryDt 153 

procfs の hidepid オ プシ ョ ン is tty の EXTPROC フラ グ 対 応 155 

Copy on write credentials 1 iptables の CHECKSUM ター ゲッ ト 157 
Performance Event iss jump label ss 

KVM/VT-x で の Unrestrict Guest サ ポー ト t7 IP set ie 

BPF JIT コン バイ ラ ie9 helper ア プリ の 特権 制限 機構 1e3 
x86-64 R/W セマフォ ー 高 速 化 1 md の 不良 ブロ ッ ク リ スト 対応 1 


年史 カ 三 ネル バシッ ガ カ 三 か が 教 る InUX を SE リリ 主 技 術 和 


日 本 国内 に も カー ネル 開発 の コミ ュ ニ ティ ー に 参加 し て いる 人 か 数 多く いま す 。 
この コミ ュ ニ ティ ー に 参加 し て いる カー ネル ハッ カー が Linux の メモ リー 技術 を 詳し く 解 説 し ます 。 


No.1 プロ グラ ム と メモ リー の 関係 1es No.8 メモ リー マイ グレ ーション 182 
No-2 空き メモ リー と メモ リー 不足 re No.9 NUMA と メモ リー 管理 1 


No.3 メモ リー 監視 172 No.10 cpuset と numad se 
No.4 ライ トバ ッ ク 4 No-.11 自動 NUMA バ ラン ス 8 
No.5 アウ ト オ ブ メモ リー re NO-12 キャ ッシュ と 複数 CPU 1w 
No.6 ペー ジ と TLB rs No.13 リソー スコ ント ロー ラー 92 


No. プ ダイレクト I/O と COW im 


周 題 Linux 上 で 複数 の アプ リ が 


同時 に 動く の は な ぜ ? 


⑩ CPU が マル チコ ア に な っ て いる か ら 
有朋 Linux が マル チタ スク OS だ か ら 
デ 同じ 開発 者 が 作っ つた アプ リ だ か ら 


E 衣 消 正解 は ウ で す が 、 赤 も 複数 アプ リ を 同時 に 動か すこ と に 
関係 が あり ます 。Linux は 、 アプ リケーション (プロセス) に 
CPU を 時 分 割 し て 割り 当て る 機能 を 持つ マル チタ スク 0S で 
す 。Linux カ ー ネ ル が 、 複数 の アプ リケーション を ご く 短 い 間 
隔 で 切り 替え な が ら 実行 する の で す 。 な お 、 複 数 の CPU( コ ア ) 
が ある 場合 に は それ ら を 有効 利用 し ます 。 


0 go の We 得点 ( 


賠 題 Linus Torvalds っ て 
どう いう 人 ? 


N ⑩ GNU プロ ジェ クト の 創始 者 
@Linux Foundation の 社長 
@ Mainline Kernel の メン テナー 


還 : 当 肖 正解 は ⑨ で す 。Linux カ ー ネ ル の 生み の 親 で あり 、Linux 
カー ネル の 開発 に お ける 最終 決定 者 と し て 、「Mainline Kernel」 
な ど と 呼ば れる ツリ ー を 管理 し て いま す 。Linux Foundation に 
フェ ロー と し て 所 属し て いま す が 、 社長 で は あり ませ ん 。Linux 
カー ネル は GNU プロ ジェ クト の 成果 物 と 組み 合わ せ て 使い ま 
す が 、Torvalds 氏 は その プロ ジェ クト の 借 始 者 で も あり ませ ん 。 


wg⑨ we の 9 wo 得点 ( 


ーー ョ ャ ー ク 


] Linux が 普及 し て いな いと 


思わ れ て いる の は な ぜ ? 


⑩ 家 電 量 販 店 で 売っ て いな い 
ら Linux と 気付 か すず に 使っ て いる 人 が 多い 
@ Microsoft に 訴え られ て 、 利 用 者 が 減っ た 
正解 は で す が 、 赤 も 部 分 的 に 正しい と いえ ます 。 多 く 
の スマ ホ に は Linux が 入っ て いま す 。 メ ー ル を 送っ た り 、 検 索 
エン ジン で 調べ ご と を し た りす る と きも 、 イ ンタ ーネット 上 で 
処理 を 行う コン ピュ ー タ に は Linux が 使わ れ て いま す 。 た だ し 、 
一 般 用 途 の PC の 0S と し て は Windows や OS X が 普及 し て い 
ます 。 
wO@⑥ we の \e@ 
王 思 ラン 


0 一 10 点 


得点 ( ) 点 


ー か ら Linux カ ー 
ネル に つい て 学び 
た いあ な た は 、 第 
1 章 か ら 順 番 に 読 
み 進 め て み ま し 
り い 3 よう 。 


総 得点 は 


回 是 Linux で は な いも の は 
どれ で し ょ う ? 


⑩ UNIX 
Android 
@ Linux カ ー ネ ル 


正解 は 箇 で す 。Linux カ ー ネ ル は 、UNIX の 仕様 の うち 
一 般 的 な 「POSIX」 に 薄 づ いて お り 、 多 く の UNIX と ソー スコ ー 
ドレ ベル の 互換 性 が あり ます が 、 「UNIX」 その も の で は あり ま 
せん 。 は 、Linux カ ー ネ ル に 他 の ソフ トウ エア を 組み 合わ せ 
た Linux デ ィ ス トリ ビュ ーション の 1 つ 、 は Linux の 中 核 ソ 
フト ウエ ア で す 。 


\0⑳ \c@ つ \o⑩ 得点 ( ) 点 
| 人 」 店 


TP 


Ri 物理 メモ リー の 管理 に お ける 


ZONE NORMAL っ て と ん み 入 0? 上 


周辺 機器 と の デー タ の や り 取 り に 使う 領域 
つら カー ネル 以外 の プロ グラ ム 領 域 
カー ネル を 含む お プログ ラム や デー タ 領 域 


正解 は 人 です 。 ZONE_NORMAL は 、 カ ー ネ ル を 含め た 
プロ グラ ム や デー タ を 格納 する 領域 で す 。 周 辺 機器 と デー タ を 
や り 取 りす る た め に 使用 する 領域 は ONE_DMA で す 。 物 理 メ モ 
リー の 管理 に お ける 領域 に は この ほか 、 主 に カー ネル 以外 の ア 
プリ ケー ショ ンプ ログ ラム や アプ リケーション デー タ を 格納 す 
る ZONE_HIGHMEM が あり ます 。 


ws@⑨ we の wo 得点 ( 人 
5 7/ 


和 曲 ファ イル シス テム で ある 


F2FS の 特徴 と し て 正しい の は ? 


フラ ッシュ に 最適 化 さ れ て いる 
@ ら HDD の 人 性能 を 極限 まで 引き 出す 
の 〇 ジャー ナリ ンク 機能 を 持つ 


正解 は 秋 で す 。 F2FS は 「Flash Friendly File System]」 


の 略 で 、NAND フ ラッ シュ メモ リー ペー ス の スト レー ジ 用 に 設計 
され た 、 新 し い フ ァイル シス テム で す 。 ジ ャ ー ナ リン グ 機 能 は 持 
ち ま せ ん が 、 ログ 構造 ファ イル シス テム と いう アー キテ クチ ャ ー 
を 採用 し て お り 、 同 じ 領域 へ の 書き 込み が 起こ ら な い の で 、 急 な 電 
源 断 が 生じ た と し て も シス テム 構造 が 壊れ る 心配 まあ り ま せん 。 


0 PO@ Wo 


ほぼ 分 か っ て いる 


カー ネル と は 何 か 


まず は マン ガ を 読み な が ら 、 カー ネル に つい て ざっ くり と 理解 し まし ょ う 。 
細か い 仕 組み を 勉強 する の は 、 そ の 後 か ら で 構 いま せん 。 


[ 週 罰 ] マン ガ で 分 か る 役割 と 機能 5 
[ 樹 軒 ] カー ネル の 基本 ボイン ト 1。 


上 2 計 ネル の 理解 研 ん で カン タン ! 
社 全 人 の 日 生活 を 題 禄 に 解説 


金 5 能 に つい て 、 手早く 理解 し まし ょ う 。 ある 企業 に お ける 日 常 の 1 コマ 
ず 扱っ た マン ガ を , の 5 コミ OU5 な ちの おる や 
| 』 し 


た みか は し ゆう じ 


2 考 金子 結花 
所 属 開 発 部 所 属 @ 開 発 部 
Pro/fe 
新人 。 新人 で 高橋 と は 同期 。 
面倒 くさ が り で は ある が 、 し っ か り 者 で 
人 当たり が いい 少し 気 が 強 い 
es 


5 いる ん じん まり い 


et 佐久間 侍 
所 属 @ 管 理 部 所 属 管 理 部 
Pro7/e roo 
ベテラン 社員 。 新人 な の か が 中堅 な の か は 
信頼 度 ナ ン バ ー ワ ン だ が 、 不明 。 仕 事 の 達人 。 
お ちゃ め な 面 も あり た だ し 、 謎 が 多い 


か 


リ 


受け 付け た り 、 
に 表示 し た 


ン か ら 同 時 に ア 
取り 合っ て 混 
に は カー ネル の 機能 を 呼 5 生じ な いよ う 、 を 調停 し ま 
実現 し て いま す 

ネル は 、1 つ の アプ リ ケ ー シ 
ョ ン の 動作 を 支援 する か た わら で 、 エス 
他 の アプ リ ケ ー 
ドウ エア の 状態 な カー ネル が 多 機能 な の は この よう 
て いま す 。 CPU や メモ リー、 な 処理 を 一 手 に 引き 受け て いる か ら 


ド デ ィ スク な どの ハー ドウ エア に 複 で す 


、 リ ク 
ラー を 通知 し 


た りす 


高橋 くん 


向 か 必 要 な の ? 

明日 出張 な の に の 雪 な の 
準備 が 問 に 合わ な いよ ! 

えっ と 

カメ ラ に メモ 帳 に 

相手 方 の 資料 に 

うち の 計画 書 に 

参考 文 献 の コビー に 

現地 の 地図 に 


それ 
間に合わ な いっ て 
レベ ル じ ゃ な いよ 


金子 くん に も 
作業 中 の 資料 


られ ます 。 そ れ に より 、 あ る 明 > 肖 


“も 、 次 の 


と い - 


CPU コ 


ん 。 し か し 、CPU と プロ モス な ら 、 タス ク (また は ブロ セス ) ス 


て み ま し ょ う 。 そ の PC を 使い た い ご く 短 い サ イク ル で 割り 当て を 切り ケ ジ ュ ー ラ ー」 が 担っ て いま す 


悪い ね 金子 さん 
こっ ち 急 ぎ な ん だ よ 


共有 パソ コン 
先 に 使わ せ て ね 


> あら 奇遇 ね 
人 こっ ちゃ すぐ に 
始め た い の 


何で 
空い て いる と き に 


使う ん だ よ 


共有 パソ コン の 
使用 スケ ジュ ー ル 


> 
SD 
"。 / 衝 


物理 メモ リー 空間 は 1 つ で す が 、 
各 プ ロ セ ス は メモ リー 空間 を 自由 に 
使え を ます 。 こ れ は 、 カー ネル が プロ 
コ こ 独 立 し た 「 仮 想 メ モリ 
ー」 と 呼ば れる 仮想 的 な 
間 を 用 意 し て いる か ら で す 
仮想 メモ リー を 個人 用 の 冷 


物理 メモ リー を 会 社 全体 の 冷蔵 庫 と 
考え て みて くだ さい 。 社員 が 個人 用 


の 冷蔵 庫 か ら 飲み 物 を 取る と 、 減 っ 


個人 の 冷蔵 庫 に 
ドリ ンク 飲み 放題 


物理 メモ リー か ら 割 り 当 て ます 


せん 


っ て 助かる な 一 


俺 の と ころ 
ドリ ンク な いわ 


5 歳 庫 に 追加 * で きま は 、 倉庫 に あっ た 


社 全体 の 冷蔵 済み の メモ リー を 「 ス ワッ プ ] に 移 
メモ リー の 場合 す な ど 
) 分 を カー ネル が 


、 物 理 メ モリ ー の 容量 は 有 て 、 限 界 に 
つま り 、 会 社 全体 の 准 歳 ば ぎれ た プロ モス を 削除 し て 
出し ます 。 要 


く な る の 
『 温 の 飲み 物 の 准 
メモ リー の 場合 は 、 測り > 当て 寺 に 時 間 が か か る の と 同じ で すね 


ドリ ンク の 補充 も 
管理 部 が や っ て 
いる ん だ っ て 


\ が あり ます 。Linux 


、 Windows で は N 


\ を 吸収 


書架 の 分 類 方 法 に 「 願 
「 地 域 」 の 2 種類 が あっ た と 


oe 
い の 。 な 
@ 
1 間 
普段 は 原 客 名 で ファ イル を 2 2 
取り 出 
少し 面 


カ 普段 通り の 顧客 名 で 地域 分 
類 の 書架 か ら 目 的 の ファ イ K 
く 取 り 出し て くれ た ら 好 都合 


書 和 担 当 の 


佐久 間 さ ん っ て ml 


あ 高橋 くん 


今 ま で と 違う の か 
面倒 だ な ぁ 


今度 の プロ ジェ クト 
書架 は 顧客 じゃ な く 
地域 で 分 類 ら し いよ 


この 顧客 の 資料 
出せ る か な ? 


探す の に 時 間 

か か る だ ろう か ら 
探し な が ら 
話 で も … 


人 往 c 
NM / マン ガ で 分 か る 役割 と 機能 


違っ て の 受信 処理 も 同じ よう な こと <: 
て いま す 
郵便 や 小包 、 荷 # 


社 の 住所 が 書か : 
受け 取り ます 。 受 け 取 っ た 
ンタ ー の 担当 者 が 六 


会 社 の 郵便 受け 
せ ず 手 に する 


ネル の ネッ トワ ー タ 機能 の 
通信 イン フラ を 意識 する こと な く 、 


作成 し 、 各 配送 業者 の 発送 棚 に 振り 


外部 と 通信 で きま す 
メー ル セ ン ター で は 、 い つ で も 受 分 け ま す 。 棚 に 入れ て 
け 取 れる 状態 で 社外 か ら の 郵便 や 小 。 一 ルポ ックス の 番号 を 受け 取る 人 に が 定期 的 に 集荷 し ます 。 カ ー ネ ル の 


包 、 荷 物 の 到着 を 待ち 構え て いま 通知 すれ ば よい で し ょ う 。 カー ネル 送信 処理 も 、 こ れ と 同様 で す 


郵便 の 発送 
佐久 間 さ ん の 担当 か ! 守ら 
お 話 で も 日 


4 


予期 し て いな 
段取り や 心 づ も り ヵ 


で 、 頭 が 真っ 白 に な る こと が ある 
7 ケー ショ KS 
が そう し た 事態 に 陥る こと の な いよ 
う 、 カ ー ネ ル に 備わっ て いる 仕組 み 
シグ ナル 」 で す 

ドー ド な どか ら 文字 の 入力 が 
カー ネル は 5 中 の 処理 を 


か も し れ ま せん 


が 「 割 込み 


と の 入力 を 


が 起こ る と 、 


この よう に 3 ほ 行 中 の 処理 に 割り 込ん 


て いな い の 


ど ハ ー ド ウエ ア か ら 発 邊 
み を 「 ハ ー ド ウエ ア 割 り 込み ]、0 に 


2 「 ソ フト ウゥ ウエア 割り 込 
び ま す 


受け 付け ます 割り 込ん で 実行 する 処理 は 「 割 り 


雷 文 さ ん が 
顧客 対応 し て る 一 


落ち 着い た 大 人 っ て 
カン ジ だ よね 


込み ハン ドラ ー」 と し て 、 割り 込み 
の 事象 用 意 き れ て いま す 

カー ネル だ け で な く 、 実行 中 の プ 
な ど に も 割り 込み が 発生 し た 
を 通知 し は いけ ませ ん 
その 通知 に 利用 きれ る の が 「 シ グ 
ナル ] で すず プ の 「SIGH 
UP」、 終了 の 「SIC RM」 な どい 
くつ か の シグ ナル が あら か じ め 定 義 
され て いま す 


NN・ 


作業 スト ッ プ !? 
お 客 さ ん か ら !? 


で すか ! 


くれ た ん 
これ で スム ー ズ !【 
作業 で きま す ! 


( 衣 Id 


4 ri 了 T 


Lindix で は 、 キ ー ボ ー ド や マウ ス 、 


する 各種 の 周 
辺 機器 (デバイス) を 利用 
す 。 こ れ も カ ー ネ ル が デバ イス を 制 
御 ・ 管 理 し 
ネッ トワ ー ク 以外 の デバ パイ 
は 、「 デ パイ ス フ ァ イル 」 
ァイル イン タフ ェ ー ス が 用 意 


か ら で す 


ロッ ク デ バイ ス は 、 ハー ド デ ィ スク 
や USB メ モリ ー、SD カ ー ド 、CD- 
ROM、DVD-ROM な どの よう に 任意 


ドラ イ バ ] が 吸収 し 
ファ イル イン タフ ェ 


いま す 。 ア プリ ケー ショ パイ ス に は 、「 キ ャ ラク ター デバ イ タ を プロ ッ ク 単 位 
イン タフ ェ ー ス を ファ イル の よう に ス 」 と 「 プ ロッ ク デ バイ ス 」 の 主 ハー ドウ エア で す 


覚悟 を 決め て 


マニ ュ ア ル を 読も う ! 
マス ター し て や る 交 


人 ⑯N 彰 
人 な ど 、B つ の テー マ で Linux 


カテ ネル の 知っ て お きた い ボイン ト を ま ど め まじ た 。 この 8B つ の ポイ ント を 押さ えて お け ば 、 Li 


nux カ ー ネル を 詳し で り ます 。 


トコ 


0 muxX' つ っ で 同 で ず すか 
記 ! 意味 は 一 意 で な ぐ く 、 狭義 と 広義 が ある B 


ューーーー-、 
お 昼 の ご 飯 は ( wegws ) 
に ステ ー キ に し よ ! が ある な ノ 


か と いう と 、 ア プリ ケー ショ ン を 利 
用 する 上 で 必要 に な る 土台 (プラ ッ 


ト フ ォ ー ム ) で す . 


土台 や アプリ を 無償 で 整え られ る 
た だ し 、Linux ディ スト リ ビ ュ ー シ 
ン と Windows と の 間 に は 、 大きな 
あり ます 。Windows に も エ デ 
ン が いく つか あり ます が 、Lin 
ux ディ スト リ ビ ュ ョ ン の 場合 は 、 
世界 中 に 似 て 非 な る も の が 何 百 種類 
と ある の で す 。 サ ー バ パー や マル チ メ 
ディ ア 端 末 、 シ ンク ライ アン ト と いっ 
た 特定 用 途 向 け の も の や 、 訓 い PC で 
実は Linux の 商標 は 、Linux カ ー も 動く 軽量 な も の 、 初 心 者 向け の も 
L ネル の 生み の 親 で ある Linus Torva の な どき さまざま で す 。 無償 の も の も 、 
トド が 析 数 ある の で で 文 Ids 氏 が 持っ て いま す 。Torvalds 氏 有償 の も の も あり ます 
トド を 判断 し な けれ ば は 、「Linux」 と いう 言 無償 の ディ スト リピ ビュ ー シ 
7 例え ば 、 な 意味 で 使わ れる の は 選べ ば 、 お 金 を か けず に ア 
「 ご 飲 」 に は 、 [お と いう 意味 捉え て お り 、Lnux は カ で あ ーション を 動か す た め の 土 
と 、「 食 事 」 と いっ た 意味 が あり ま る だ と か 、 デ ィ ス トリ ビュ ーション る こと が で きま す 。 土台 ば か り で な 
す 。 前 者 は 鉄 病 の こ 飯 、 後 者 は 広義 で ある だ と か に 拘 況 し て いま せん く 、Linux 上 に は 無償 で 利用 で きる 
の ご 飯 と v ィ で は 、Linux ディ スト リ ビ る アプ リケーション が 多数 そろ っ て い 
さて 、 本 題 の Linux で す が 、Linux ョ ン と は 何 な の か を 説明 し まし ょ ます 。 例 えば 、Ubuntu と いう Linux 
に も 大 きく 2 つの あります 。1 う えば 、OS (オペ レー ディストリビュー ショ ン の 場合 、 再 


ィ シ 


つ は 、 本 ムッ ク の テー マ で ある 「Lin 拉 ば れる ソフ 用 画面 か ら 統一 的 な 操作 で イン スト 
ホル の こ CK す 。 こ れ が 狭 広く 知ら れ て 一 ル で きる も の だ け で 約 4 万 本 あり 


義 の Linux で 、 プ ログ ラム 開発 者 は いる 0S に は 、Windows や ぶ 、 iOS、 ます 

も っ ぱら Linux カー ネル の こと を Lin Android な ど が あり ます 。Linux デ Linux に は メリ ッ ト ば か り で は な 
ux と 言い ます 。 も う 1 つ は 、 「Linux ィ ス トリ ビュ ーション も て ぐ く 、 デ メリ ッ ト も あり ます 。 例 えば 、 
ディ スト リ ビ ュ ーション 」 の こと で の と 同様 の 役目 を 担っ て 有償 サポ ー ト を 受け られ る Linux デ 
す 。 こ れ が 広義 の Linux で 。 一般に お 、Android は Linunx デ ィ ス トリ ビ ィ ス トリ ビュ ーション は 、 一 部 に 限 
は こち ら の 意味 で 使わ あれ で いま す ュー ショ ン の 1 つ で きす )。 役 上 日 は 何 られ ます 


" 肪 . < 。 罰 還 還 有 ゆ 、 2 人 SN 


えー、 聞 いて いな いよ 
こっ ち は 早 く 
や っ ちゃ いた い の ! 


Linux カー ネル は 、OS の 核 
基本 的 か つ ソフ トウ エア で す 
コン ピュ ー ダ タ わる 各種 ハー ドウ 
エア を 管理 し て 、 複 数 の ユー ザー お 

よび 複数 の アプ リケーション が コン 
ピュ ー タ を 効率 良く 利用 で きる よう 
に し て くれ ます 。Partl の マン が で 紹 
り で す 
ハー ド デ ィ スク に デー タ 
処理 に つい て 考 


イル シス テム な どの 機能 が 存在 し な 
か っ た ら 、 ア プリ ケー ショ ン は 「 フ 
ァイル 」 に 保存 する と いう 処理 で は 
な く 、 ド ライ プ の ヘッ ド 制 御 や モー 
『 う と と Se 保存 先 と 


また 、 複数 の ア プリ ケー ショ ン か 
ディ スク へ の アク セス が 生 


- 方 の アク モス を プロ 


まあ まあ 2 人 と も 
私 が 来 配 し よう 


私 の 番 ね 
じゃ あぁ 今 か ら 
使い ます 


は な い の で 、 開発 者 が 異な る アプ ブリ 
ケ > AN 動作 を うま く 調 


レッ 1 有 め コ 
難し い 作 業 を 一 手 に 引き 受け ます 
カー ネル は アプ リケーション か ら 見 
コン ピュ ー タ が 持つ 機能 を 容 
に 利用 可能 に する 、 縁 の 下 の 力 持 


CA ソフ トウ エア と いえ ます 


各種 ハー ドウ エア 資源 を 一 元 管理 する 
コン ピュ ー タ に は ハー ド デ ィ スク 
の ほか 、CPU や メモ リー な ど 、 アプ 
リケーション が 動作 する 際 に 必要 に 
な る ハー ドウ エア 資源 が 何 種 類 も あ 
り ま す - 元 的 に 管理 きれ 
て いな いと 、 ア プリ ケー ショ ン 同 士 
で 取り 合い に な りか ね ませ ん 
な いよ う 、 


し ら が 


Linux カー 
プリ ケー ショ ン の 間 に 
を し ます - 


立っ て 、 伸介 
Linux カ ー ネ ル は CPU を 


割り 当て る 機能 や 、 ア プリ ケ 
する メモ リー を 調 
る 機能 な ど を 


最近 の PC で は CPU が 複数 の コ 


ア を 持ち ます が 、Linux 上 で は その 
CPU 数 を 上 回 る アプ リケーション を 
同時 * き ます 。 こ れ は 、Lin 


ux カー ネル が 複数 の アプ リ ケ ー シ ョ 
ン (正確 に は プロ モス) を ご く 短 い 
間隔 で 切り 替え な が ら 実 行 し て いる 
か ら で す 

また 、 あ る アブ リ ケ 
用 する メモ リー を 他 の 
ョ ン か ら 参 照 も し く は 変更 


ネル の メモ リー 管理 機能 は 適切 に ア 
クセ モス 制限 を か け ま す 

と は いえ 、Linux カー ネル だ け で 
は 、 ア プリ ケー ショ ン は 動作 し ませ 
ん 。 「GNUC ライ プラ リ | と いっ た 
ソフ トウ エア も 
ィ ス トリ ビ - に は 、Linux カ 
ー ネ ル に 加 の よう な ソフ トウ 
エア も 入っ て いま す 

な お 、Linux は し ば 1 UNIX 
系 0S の 1 つと いわ れる こと が あり ま 
す 。 要 は 、UNIX と いう 0S の 仲間 だ 
と いう こと な の で す が 、 こ れ に つい 
て 簡単 に 説明 し て お きま す 。UNIX 
は 米 AT&T の ベル 研究 所 で 開発 き 
れ 、 現 在 で は AIX、HP_UX、Solar 
is な どの 名 称 で 主 に サー バーOS と 
し て 利用 きれ て いま す 

Linux カー ネル お よび Iinuxi デ ィ 
スト リ ビ ュ ーション は 、AT&T 社 が 
持っ て いた UNIX の ソー スラ イセ ン 
ス を 使う こと な く 、 独 自 に よく 似 た 
機能 を 実装 し た 「UNIX クロ ー ン ] 
で す 。UNIX の 仕様 の うち 、 一 般 的 
な 「POSIX」 に 基づい て お り 、 多 く 
の UNIX と 互換 性 が あり ます 


す 。 Linux デ 


、 2 こん な ロボッ の 数 は 今 で は 4000 人 ほど で す 
Hot きる 
音声 発信 ほ GNU の 成果 物 と 組み 合わ せ て 使う 
Torvalds 氏 ら が 開発 し て いる の 
は 、 ス ター ト 時 も 今 も 、 前 ペー ジ で 
説明 し た カー ネル の み で す 。 手元 の 
PC 上 で 手 っ 取り 早く UNIX ク ロー 
ン の 自作 0S を 利用 し た か っ た 
か ら 、OS に は 欠か せな い コ ン パ イラ 
や コマ ンド 群 な ど に つい て は 、GNU 
プロ ジェ クト と 呼ば れる コミ 
ティ ー の 成果 物 を 利用 し まし た 
Linux カー ネル は GNU プロ 
の 成果 物 と 組み 合わ きる こと で 、 
め て ユー ザー が コン ピュ ー タ と 対話 
し て 各種 操作 が で きる よう に な る の 


で す 


こう いう の が 
欲し いな ! 
作っ て みよ う ! 


1991 年 の 夏 、 フ ィ ン ラ ンド の ある に 不満 を 抱い た Torv 
大 学生 が 、1 つ の OS の 開発 を 進め を 自ら の 手 で 開発 する こ 
て いま し た 。 CPU が 持つ タス クス イ で す 。 つ まり 、 当 初 は 自 2 

チ な どの 機能 を に 利用 し て め の OS> FE られ まし た Jinux カー ネル と GNU プロ 
いた 、MINIX と いう 教育 用 に 作ら 友人 か ら 勧 め ら れ 、 そ の OS を イ ジェ クト の 成果 物 が あれ ば 利用 で 
改良 し よう と し て いた の 。 ンタ ーネット 上 に 置き 、 ダ ウン ロー 。 る と は いっ て も 、 そ # を 個別 に 
Linus Torvalds " ド で きる よう に し まし た 。 1991 年 10 コン パイ ル し て イン スト ー ル する の 
氏 で す 月 2 日 に 、 パ ー ジ ョ ン 0.02 を 初め て は 容易 で は あり ませ ん 。 そ の 手間 を 

MINIX は オラ ンダ の Andrew Ta - 般 に 公開 し た 当時 は 、 単 体 で は イ 大 幅 に 削減 する 役目 を 担っ て 登場 
nenbaum 氏 に より 、ATGT が 持っ ンス トー ル で きず 、MINIX が 必要 し が 、 p.14 で 記し た Linux ディ 
て いた ライ セン られ る こと な な 状態 で し た 。 そ ん な OS で も ダウ スト リ ビ ュ ーション 
く 、 研究 や 教育 で 実際 の ソー スコ ー ン ロ ー ド し て 、 試す 人 が ? 3 ディ スト リ ビ ュ ーション を 利用 す 
ド を 改変 で きる よ 【 図 し て 開発 て いき まし た 。 翌 1992 れ ば 、UNIX な どの 利用 経験 が 無 
され た 、 UNIX クロ ー ン の OS で す し て の 基本 部 分 が 出来 上 カ て も イン スト ー ル で きま す 。 こ の こ 
研究 用 と いう こと も あっ て 、 マ イク の MINIX に 不満 を 感じ て いた ユー と か ら 、Linux の ユー ザー 層 が 
ロカ ー ネ ル と 呼ば t る アー キテ クチ ザー を 中 心 に 、 多 く の 人 が Lin に 広がっ て いき まし た 

ほな 使っ て 大 T ユー ザー が コン ピュ ー タ を 使う に 
は 、Linux カー ネル と GNU プロ ジ 

た だ し 、 当 時 の MINIX は ハー ド 完成 品 に も か か わら ず 、 イ ンタ ェクト の 成果 物 の ほか に 、 利 用 目的 
ディ スク の な い Intel 8088 搭 載 機 で 一 ネッ ト 上 で 公開 し た 要 で 
も 動作 する よう に 設計 され て お り 、 同様 の 0S を 欲し す 。 ど の よう な アプ リケーション を 
80386 (i386) プロ モッ サ の 保護 仮 が 見 つか っ た の で す 搭載 する の か に よっ て 独自 色 を 付け 
想 モ ー ド に 備わる メモ リー 管理 機 ちと 連携 や すい こと か ら 、 各 種 団体 や 企業 
能 や タス ク 切 り 替 え 機 能 な ど は 使え チ で 進む よう に な り ま し た ある い は 個人 が それ ぞ れ 異な る ディ 
ませ ん で し た 。 手元 の PC つ そ そ 、Torvalds 氏 が 1 人 で 開発 ヽ スト リピ ビュ ーション を リリ ー ス する 
うし た 機能 を フル 活用 で き な い こと まし た が 、 徐々 に 協力 者 が 増え 、 よう に な っ で いっ た の で す 


二 っ | 還 


G 


に に 合っ た アプ リケーション も 


最初 


(7 


使い 方 の ルー ル が 
ある ん だ よ 


GPLv2 の 場合 
X ソー スコ ー ド を 公開 せ ず に 実行 
ファ イル だ け 他 社 に 販売 
O 馬 自 に 改変 し 、 ソ ー ス コー ド を 
社外 に は 公開 せ ず 自社 内 で 使用 
Linux カ ー ネ ル や GNU プロ ジェ ク 権 侵害 に な っ て し まい ます 
ト の 成果 物 は 、 オ ー プ ン ソ ー ス の ソ OSS の ライ セン ス は 、 ソ フト ウ 
フト ウェ エア (OS イン ター ア の 開発 者 が 著作 権 を 手 放 : 
ネッ ト ー ス コー ド が 公開 され く 、 ユ ー ザ ー で に 改変 や 再 配布 な 
て いま も ダウ ン ロ ー ド し て 前 る も の で す 。 開 発 者 ( 著 
きら に 定め られ た 者 ) が 持つ 権利 を 利用 し て 、 改 変 (2 
再 配 布 す る こと 次 著作 物 の 作成 ) や 再 配布 を 許諾 し 


必 計 H 


も 可能 で す 。 こ の よう に ソフ トウ エ て いる の で す 
ア の ソー を 2 、 皇 配布 


し て 必要 と する 人 に 使っ て も ら う 考 許諾 内 容 は それ ぞ れ 異な る 
え 方 は 、 な どの 教育 機関 や 研究 代表 的 な OSS の ライ センス に は 、 
機関 を 中 心 に 、 古 く か ら あ り ま す GPL や LGPL、 BSD ライ セン ス ヵ 
Linux カ ー ネ ル や GNU プロ ジェ が あり ます 。 そ れ ぞ れ 許 諾 内 容 に 価 
クト の 成果 物 を は じ め と する OSS で い が あ り ま す 
は 、 ル ー ル が ライ モン ス の 条文 と し GPL は FSF (Free Software Fou 
て 規定 され て お り 、 そ れ に 上 則 る 必要 ndation) に よっ て 提唱 きれ た ライ セ 
が あり ます 。 一般に 、 小説 や 映画 な ンス で す 。 バ パー ジョ ン が 複数 あり 、 
どの 著作 物 は 、 著 作 権 護 さ れ 例え ば Linux カ ー ネ ル の ライ セン ス 
て いま す 。 ソ フト ウエ ア も 、 それ ら で す 。 「 ソ フト ウエ ア の 著 
著作 物 と 同様 に 著作 権 法 に よっ て > 作成 者 に 帰属 する ]「 ソ 
れ て いま す フト ウエ ア の 複製 物 
で すか ら 、 勝 手 に 改変 し た り 、 再 できる]」「 ソ フト ウエ 
配布 し た りす る こと は びに 使用 は 自由 に 
ソフ トウ エア の 開発 者 が 著作 権 を 
手放し て いな い 場 合 、 例え ば ソフ ト し い フ リー ソフ トウ エア の 一 部 と し 
ウエ ア を 勝手 に 再 配布 する と 著作 て の 使用 も 自由 に 行え る ]「 ソ フト 


征 で ある 2 次 著作 物 

を 配布 する 際 は ライ セン ス に GPL を 

採用 し な けれ ば な ら な い 」 と いっ た 
内 容 が 規定 され て いま す 

GPL の 最大 の 特徴 は 、 GPL の ソフ 

トウ エア を 組み 込ん だ り (リン ク し た 


きま せん 
自社 内 で の み 使 用 する の で あれ ば ソ 
ー ス コー ド を 公開 する 必要 は 必ず し 
も あり ませ ん 

LGPL も FSF に よっ て 策定 され た 
ライ セン ス で 、 特 定 利 用 状況 下 に お 
いて は ライ セン ス の 継承 が 起こ ら な 
PL の 条件 を 緩和 し た も 
の で す 。LGPL で は 、 元 の ソフ トウ 
エア を 改変 する こと な く 、 他 の ソフ 
トウ エア と リン ク し た 場合 に は 、 他 
の ソフ トウ エア に LGPL を 適用 する 
必要 が あり ませ ん 。 他 ま 、Linux 
関連 の 大 半 の ソフ トウ エア に と っ て 
不可 欠 と な る 、C ラ イブ ラリ 「glib 
で] は この ライ セ モンス を 採用 し て い 


学 に よっ て 策定 され た 、 比 較 的 


し 、 話 諾 
は な く 、 例 えば 2 次 著作 
コー ド を 公開 し な い 場 合 に は ドキ ュ 
作 権 表 示 や ヤラ イモ ンス 文 
す 必 要 が あり ます 


っ 


が の よ 


今 で は 所 属 企業 の 業務 と し て 携わる 人 が 多い 3 


開発 ボラ ンティア 


どん な 人 が 参加 
する ん だ ろう 7? 


趣味 で 気楽 に 7 


D.I6 で 記し た よう に Linux カー ネ 
ル は 、 当 初 は Linus Torvalds 氏 が 
1 人 で 開発 し て いた ソフ トウ エア で 
す 。 最初 の パー ジョ ン で ある 001 で 
は 、 ツー スマ ゼー り 1 万 行 ほど 
し た 。 そ れ が 2014 
最新 の パー ジョ ン 
コー ド が 1600 万 行 以 上 と 、 当 初 の 
1600 万 倍 程度 に 膨らん で いま す 

こん な 巨大 な ソフ トウ エア を 1 人 


で 開発 と は 到底 で きま せん 
今 で は 、Torvalds 氏 を 含む 多数 


(4000 人 ほど と いわ れ て いる ) の 開 
発 者 か ら 成 る コミ ュ ニ ティ ー で 開発 
され て いま す 
ニテ ィ ー と は 、 個々 の 目的 
持つ 人 が 何ら か の 共有 する 価値 観 
結び 付い た 団体 の よう な も の 
す 。Linux カー ネル の 開 避 
ティ ー (以下 、 開 発 - 
) に お ける 「 共 有する 価値 観 ] と 
は 、Linux を さら に 優れ た も の に し 、 
より 広く 普及 させ る こと で す 

と は いえ 、 ソ フト ウエ ア 開 発 は 知 
的 労働 の 産物 で す 。 労働 の 産物 で あ 
る の な ら 、 開発 者 は 労働 に 対し て モ 


コミ ュ 


を 
を 基 
で 


ュ ニ ティ 


トペ 


私 は 仕事 の 一 環 で 
給料 を も ら っ て 
開発 し て いる ん だ 


チ ベ ー シ ョ ン を 持つ こと が 不可 欠 で 
| 寺 セ 」 

例え ば 、 労 働 へ の 対価 と し ・ 

的 な 報酬 を 得る な ど で す 。 た だ し 、 

ニテ ィ ー は 労働 の 産物 

を 一 般 に 公開 し 


従 
開発 コミ ュ ニ ティ ー は 各 開 発 
者 に 金銭 的 な 報酬 を 支払 っ て は い 


ませ ん ド で は 、 開発 者 は ボ 
ラン ティ ア て 開発 に 協力 し て い 


る わけ で す 

この よう に 説明 する と 「 金 銭 的 な 
報酬 が な い の に 、 開発 者 が 協力 する 
の は どう し て ? 」 と いう 括 問 が 浮か 
ん で くる か も し れ ま せん 。 実は 、 大 
半 の 人 は 目的 を 持っ て 開発 に 携わっ 
て いま す 

その 目的 で す が 、 多 く の 人 は 所 属 
企業 の 業務 と し て 開発 に 当たっ て 


6 
いま す 。 そ れ 以 外 に 、「 一級 の エン 
ジニ ア た ちか ら 品 質 が 高い と 認め ら 
れる と う 福 で 豊か な 社 
内 


る 」 と いっ た 個人 的 な 理由 か ら 、 自 


分 の 時 間 を 開発 に 充て て いる 人 も い 
ます 

大 学 な ど で 研 究 の た め に 開発 に 
協力 し て いる 人 も いま す 。 現在 メン 
テナー と し て 活躍 し て いる 人 の 中 に 
は 、 最初 は あく まで も 個人 的 な 理由 
で 開発 に 協力 し て いた も の の 、 後 日 
その 活動 が 所 属 企業 か ら 認 め ら れ 
て 今 で は も っ ぱら 業務 に な っ て いる 


ケー ス が あり ます 


階層 的 な 体制 で 開発 され て いる 


さき て 、Linux カー ネル は どの よう 
Da 


が 


か 。 各 開 発 者 が 勝手 気まま に 
機能 を 開発 し て 公開 し 、 優 】 
が 人 気 を 集め て 高 v 
いう 「 バ ザー ル 方 式 ] て 
に 近い 体制 で 開発 きれ て いる と 
て いる か も し れ ま せん 。 当初 は そう 
も あっ た の で す が 、 今 で は 階 
層 的 な 体制 で 開発 や 保守 が 行わ れ 
て いま す 
Torvalds 氏 の 配下 に は 、 サ プシ ス 
テム ご と の 管理 担当 者 が いま す 。 そ 
の 管理 担当 者 の 配下 に 、 フ ァイル や 
ドラ イ バ ご と の 管理 担当 者 が 存在 


し ます 。 さ の 配下 で 、 多 数 の 
開発 者 が 新 機能 の 開発 や 保守 
を 行っ て いま す 。 つ まり 、 開 発 者 が 


作成 


バ パッチ ( 新 機能 ) は 、To 
氏 1 人 に よっ て 適用 の 可否 が 
れる の で は な く 、 自 階 的 に 取 
捨 選択 され て いく の で す 。 こ れ に よ 
り 、 一般 公開 され る Linux カー ネル 
着実 に 確保 され ます 
開発 の 体制 は 、 開 発 が 
っ て 形 が 何 度 か 変わ り まし 
し て 、2000 年 ころ か ら 現 在 の 
よう な や り 方 に な り ま し た 


が 


" 打 . < 。 罰 還 間 肥 、 2 人 SS 


る 
1 


Linux カー ネル は 、 こ れ ま で 説明 
し て きた よう に オー プン ソー ス の ソ 
フト ウエ ア で あり 、 イ ンタ ーネット 
上 の 「kernelorg] と いっ た Web サ 
イト で ソー スコ ー ド が 公開 され て い 


ます 


E9 月 下旬 時 
8 5 合 、 ソ ー ス コー ド 

は tar.xz 形 式 の 圧縮 ファ イ 
ル で 77M バ イト ほど で す 。Windo 
あれ ば ぼ 「7-Zip] な どの 圧縮 伸 
張 ソ フト ウエ ア 、Linux の 場合 は tar 
コマ ンド に Jxf オ プシ ョ ン を 指定 し 
て 展開 で きま す 

Linux カー ネル を 利用 する に は 、 
ダウ ン ロ ー ド し て 展開 し た ソー スコ 
ー ド を コン パイル し て 、 パイ ナリ ー 
し な く て は いけ ませ ん 。Lin 
ux ディ スト リ ビ ュ ーション が PC に 
イン スト ー ル され て いて 、 開発 環境 
も 整っ て いる な ら 、 数 個 の コマ ンド 
を 実行 する 
し か し 、Linux や UNIX を 未 導入 の 
PC 上 で Linux カー ネル を コン パイ 


で 最新 版 の カ 


PC で 利用 し た い 場 合 だ 
新版 の カー ネル を 自分 な ら で は の 独 
自 の 設定 で 使っ て みた いと いっ た 場 
合 も 、 ま ず は Linux ディ スト リ ビ ュ 
ーション を 導入 する の が 近道 で す 


ディ スト リ ビ ユ ーション を 
導入 し て 開発 環境 を 整備 
世の中 に は 、 さ きま ざ まな Linux デ 
ィ ス トリ ビュ ーション 在 し ま 
す 。 有名 な も の に は 、 米 Red Hat 社 
が 開発 する [Red Hat Enterprise Li 
nuxl| (有償 ) や 、 同 社 の 支援 を 受け 
で て コミュニティー ベー ス で 開発 され 
て いる 「Fedoral (無償 、Fedora プ 
ロジ ェクト が 提供 )、Red Hat Ente 
rprise Linux の ソー スコ ー ド か ら 商 
用 パッ ケー ジ な ど を 取り 去っ 
て ビル ド さ れ た CentOS (無償 、Ce 
nt(OS プ ロジ ェクト が 提供 )、 英 Ca 
が 開発 し Linux デ ィ ス トリ 
ビ ョ ン の 中 で は 人 気 が 特に 
い 「Ubuntu] (無償 )、Ubuntu が 
開発 の ベー ス と し て いる 「Debian] 


で 衝 の 


二 ネ ル は ほ 宮 ご : 
- 開発 元 の サイ ト か ら ダ ウン ロー ド す る 


(無償 、Debian プロ ジェ クト が 提供 ) 
な ど が あり ます 

こう し た ディ スト リ ビ ュ ーション 
は PC 上 で 利用 で きる OS で す が 、PC 
を 扱っ て いる 家電 量販 店 や PC ショ 
ッ プ に 行っ て も 、 ま ず 入 手 (購入 ) 
で きま せん 。 か つて は 、 そ うし た 
チャ ネル で Linux ディス トリ ビュ ー 
ショ ン が 扱わ れる こと も あり まし た 
が 、 あま り 売 り 上 げに 結び 付か な か 
っ た こと か ら 、 取り扱わ れ な く な っ 
て し まい まし た 

無償 の Linux デ ィ ス トリ ビュ ー シ 
ョ ン の 場合 は 、CD-ROM や DVD- 
ROM の 形式 (ISO 形 式 ) の ファ イ 
ル と し て 、 開 発 元 の Web サ イト や 
その ミラ ー リ ング サイ ト で 公開 され 
て いま す 。 そ の ファ イル を ダウ ン ロ 
ー ド し 、PC の ライ ティ ング ソフ ト 
を 使っ て CD-R や DVD-R に s 
と 、 それ が イン スト ー ル メデ ィ ア に 
な り ま す 

Linux ディ スト リピ ビュ 
イィ ンス トー ル 後 、 必要 ( 
ネル の ビル ド ほな 開発 環境 を 
イン スト ー ル し ます 。 そ の 際 に は 、 
「 バ パッ ケー ジ 管 理 シス テム 」 を 利用 
し ます 。 多 く の Linux デ ィ ス トリ ビ 
ュー ショ ン で は 、 カ ー ネ ル も 含め て 
各 ソ フト ウエ ア を 「 バ パッ ケー ジ 」 と 
いう 形式 で 管理 し ます 。 ア プリ ケー 
ショ ン を イン スト ー ル する 際 は 、 目 
的 の アプ リケーション パッ ケー 有 だ 
け で な く 、 そ の アプ リケーション が 
動作 する 上 で : 
な どの 依存 パッ ケー ジ の 導入 も 必要 
に な る こと が あり ます 。 パ バ パッケージ 
管理 シス テム は 、 そ うし た 依存 パッ 
ケー ジ も まとめ て 一 括 イ ンス トー ル 
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Linux カー ネル は さま ざま な 要素 
で 構成 され て いま す 。 具体 的 に は 、 
プロ セス 管理 機構 や メモ リー 管理 
機構 、 プ ロモ ス 間 通信 機構 、 時 間 管 
理 機構 、 割り 込み 管理 機構 、 ネ ッ ト 
ワー タク 機 構 、 仮想 化 機構 、 フ ァイル 
シス テム 、 プ ロッ ク 入 出力 層 、 デバ 
イス ドラ イ バ な ど で す 

ここ で は 、Partl の マン が ガ で も 人 触 
モリ ー 管 理 機構 の 働き に つ 
# に 紹介 し ます 。Linux カー 
ネル の 働き に よっ て 、 ア プリ ケー シ 
ョ ン (プロ モス ) に は 他 の アプリケ 
ーション か ら は 参照 や 書き 込み が で 
きず 、 独占 的 に 使用 で 
空間 (仮想 アド レス 3 
れ ま す 。 ア プリ ケ 
は プロ セス ) は 、 それ ぞ れ 者 立 し た 
メモ リー 空間 を 持ち ます 。 ア プリ ケ 
ーション ご と に メモ リー 空間 が 独立 
し て いる の で 、 複数 の アプ リ ケ ー シ 
ョ ン 間 で 相互 に メモ リー の 内 容 を 
み 書 きす る に は 、 特別 な 仕組 み を 利 
用 する 必要 が あり ます 

アプ リケーション が 利用 する メモ 
リー 空間 は 、 見 か け だ け の も の で 


は い ど う ぞ 
お や 、 こ れ が 
最後 の 1 枚 だ 


3 ョ ン が 動作 する 上 
で メモ リー カ か な っ た ら 、PC に 
搭載 され て v の メモ リー ( 物 
理 メ モリ ー) り 当 て る 処理 を Li 


PJ アリ) 


nux カー ネル し ます 
ショ ン が 利用 する メモ リー 空間 


実際 に 利用 し て いる 領域 に し か 、 物 
理 メ モリ ー が あて が われ ませ ん ( マ 
ッ ピ ング され ませ ん ) 

この よう な 仕組 み で 、 複数 の アプ 


リ ケ 


ン が 相互 に 悪影響 を 及ぼ 
すこ と な く 安 全 に 、 物理 メモ リー を 
共用 で きま す 


メモ リー が 足り な いと き は 
カー ネル が 回 収 する 

アプ リケーション か ら は 、Linux 
カー ネル の 働き に よっ て 、 仮想 アド 
レス 空間 全体 に 物理 メモ リー が マ 
ッ ピ ング され て る よう に ます 


し か し 、Linux カー ネル は そう は い 
きま せん 。Linux 自体 、 シ ステ ム 全 
体 の メモ リー な ど を 管理 し て いる ソ 


フト ウゥ エア な の で 、 カ ー ネ ル 自身 の 
メモ リー 管理 に つい て も 自ら 実施 し 


な く て は な り ま せん 。 カー ネル 内 で 
メモ リー が こ な っ た 際 、 自 ら メ 
モリ ー を 割り 当て ます 

PC に は 、 メ モリ ー が 無尽 蔵 に 搭 
載 さ れ て いる わけ で は あり ませ ん 
従 
モリ ー を 要求 し た と き ( 
える だ け の メモ リー が 残っ て いな い 
も あり ます 
そう し た と き 、Linux カーネル 
(の kswapd と 呼ば れる ソフ トウ エ 
テ ) は 、 使 用 中 の メモ リー を 調べ 
て 、 可能 な 場合 に ( 未 使用 の 
状態 に この 動作 は 
「 回 収 」 と 呼 

どの よう な 場合 に 回 収 す る の か と 
いう と 、 メ モリ ー が ファ イル キャ 
ッシュ と し て 使わ れ て いた り 、 メ モ 
リー の 内 容 を ハー スク に 待 人 
(スワ ッ プ ) 可能 だ っ た り 、 カ ー ネ 
ル が 使用 する メモ リー の うち ほか か 
ま 妥 さ れ て いな か っ た り 、 と いっ 
た ケー す 
な お 、 未 使用 メモ リー が 残り 少な 
い 状 況 で 、 メ モリ ー の 要求 が 相 次 く 
と 、 メ モリ ー の 回 収 処理 が 追い 付か 
な い 、 すなわち 素早 く メ モリ ー を 割 
り 当 て る こと が で き な い 状態 に 陥り 
ま 28 場合 に は 、 メ モリ ー 
割り 当て の 要求 元 で メモ リー の 回 収 


て 、 ある アプ リケーション が メ 


そう し 


的 な メモ リー 管理 機 
構 の 働き で す 。 も ちろ ん 、 こ れ 以 
外 に も メモ リー の 割り 当て や 回 収 を 
繰り 返し て いる うち に 使用 状況 が 虫 
食い 状 態 に な っ て 連続 領域 を 確保 
で き な く な る 「 フ ラグ メン テー ショ 
ン 」 へ の 対策 や 、 そ うし た こ な 
ら な いよ うに する 工夫 な 


まな 機能 を 備え て いま す 


" 打 . < 。 罰 還 陣 有 ゆ 、 2 人 SN 


私 は これ を 
実行 し た いん で す が 
CN 


ちょ っ と 待っ て ね 
混ん で る か ら 
調整 する よ 


これ まで 説明 し て きた よう に 、Li 
nux は 複数 の アプ リケーション を 同 


例え ば プロ モッ サ (CPU 
コア ) が 1 つ し か な い PC で も 、 動 
画 を 再生 し な が ら 、 ワー プロ ソフ ト 
で 文書 を 編集 する と いっ た こと が で 
きま す 。 ど うし て 、 プ ロ セ モッ サ が 1 
つ し か な い 場 合 で も 、 複数 の 処理 を 
同時 に 実行 で きる の で し ょ うか 。 こ 
れ は Partl の マン ガ で も 簡単 に 触れ 
まし た 

プロ モッ サ が 1 つ し か な けれ ば 、 
ある 瞬間 に 動作 する アプ リ ケ ー シ ョ 
ン は 1 本 に と どまり ます 。 に も か か 
わら ず 、 複数 の アプ リ ケ ー シ 
に 動く の は 、 プ ロモ ッ サ 
する アプ リケーション を Linux カー 
ネル が ご く 短 い サ イク ル で 切り 替え 
て いる か ら で す 

つま り 、 あ る 瞬間 に 実行 する アプ 
リケーション は 1 つ で も 、 次 の 瞬間 
に は 別 の アプ リケーション が 動作 し 
て いる の で 、 複数 の アプ リ ケ ー シ ョ 
ゆい て いる よう に 見 える 


私 は この 絵 を 
ファ イル シス テム Z に 


を 出す と 、Linux カー ネル 
2 アプ リケーション に ブロ モッ 
サ を 割り 当て ます 


アプ リ ケ ー シ ョ 


ー ネ ル は アプ ブリ ケ 
ーション な どか ら か ら ト リガ ー ( 指 
令 ) が あっ た 場合 に 、 その 依頼 を 適 
タス ク (また は プ 


切 に 処理 し ます 
ロモ ス ) スケ ジ = 
ソフ トウ エア が 


る アプ リ ケ ー シ 
ぞ れ の アプ リケーション に 割 
る 時 間 を 決定 し ます 。 そ の 際 、 タ ス 
クス ケ ジ ュ ー ラ ー は 各 ア プリ ケー シ 
ョ ン に 公平 に プロ モッ サ を 割り 当て 
よう と し ます 

Linux カー ネル が 自ら 能動 的 ( 主 
体 的 ) に 動作 する こと は あり ませ 
ん 。 基 本 的 に は 、Linux カー ネル は 
呼び 出さ れる まで 待機 し て いて 、 何 
ら か の 指令 が あっ た と き に 
し ます 。 ア プリ ケー ショ ン は に 限定 さ 
れ た 処理 だ け 実 施す れ ば よい の で す 
ネル は 受け 取っ た 指 


が 、Linux カ 


令 に 応じ し て 、 さ ま ざ ま な 処理 を 実施 
し な けれ ば な り ま せん 。 そ れ に は 、 
能動 的 に 動く より 、 呼 び 出さ れ た と 
だ け 動 作 す る ソフ トウ エア 
ミ 装 し た 方 が 都合 が 良い の で す 


CD で も HDD で も 
同様 に 使え る 背景 

も う 1 つ 、CD-ROM 上 の ファ イル 
で も 、Linux で 一 般 的 な ext4 な どの 
ファ イル シス テム 上 の ファ イル で も 
同じ ょ うに 参照 で きま す 。Partl の 
マン が ガ が で 紹介 し た ファ イル シス テム 
と VFS の お か げ で す 

ファ イル シス テム は 、 デ ィ ス ク 
上 の デー タプ ロッ ク と ファ イル と の 
対応 を 管理 する 機能 で す 
は 、「ext4」 と 呼ば れる ファ イル シ 
ステ ム が 広く 使わ れ て いま す 。Win 
dows で は FAT や NTFS、OSX で 
は HFSX と いっ た ファ イル シス テム 
が 使わ れ て いま す 。 ま た 、 FAT や 
CD-ROM の 標準 ファ イル シス テム 
で ある 「ISO9660] と いっ た ファ イ 
ル シ ス テム も あり ます 

Linux だ け で は な く 、UNIX 系 の 
OS で も 「VFS] を 介し て ファ イル シ 
ステ ム に アク モス し ます 。 こ の VEFS 
が ファ イル シス テム の 差異 を 吸収 し 
ます 。 そ の 結果 、 ア プリ ケー ショ ン 
は 各種 ファ イル シス テム に 、 統 一 的 
な 方 法 で アク セ モス で きる の で す 

VFS が 対象 と する ファ イル シス 
テム は 。、 コ ロン ピュ ニタ の 加 記 カル 
スト レー ジ 向 け の も の に 限ら れ ま せ 
ん 。 米 Sun Microsystems 社 (現在 
の 米 Oracle 社 ) が 開発 し た 、 ネ ッ ト 
ワー ク を 介し て 利用 で きる FNFS] 
と いう ファ イル シス テム な どる 利用 
で きま す 。 


Linux で 


へ 


P。, 1 L23) 
P- 2 CD 


プー 


国選 で 作り を 学び 
実 栓 で その 一 羊 を 確認 する 


ンド と ログ な ど を 活用 し た 実機 の 操作 を 通じ て Linux カ ー ネ ル が 動く 仁 
\ー ネ ル の 主要 な 機能 で ある プロ セス 管理 や メモ リー 管理 、 デバ イス 管理 、 
ットワーク 、 割 り 込み や シグ ナル に 分 け て 見 て いき まし ょ う 。 


第 1 章 で は 、 マ ン ガ を 用 いて Lin 
ux カー ネル の 役割 や 機能 を 紹介 し 
まし た 。 第 2 章 で は 、Linux を 触り 
な が ら 、 カ ー ネ ル の 仕組 みや 動き を 
見 て いき ます 

Partl で 使用 する Linux ディ スト 
リピ ビュ ーション は 「Ubuntu 14.04 
LTS 日 本 語 Remix」 (以下 、 
tu 14.04) で す (「http://ubuntulinu 
xjp/|」 か ら 入手 )。 こ れ を イン スト 


カー ネル の 実体 は 1 ファ イル 
「NS」 コマ ンド で 7boot デ ィ レク トリ 


で 
ー に ある ファ 


の ファ イル が 、 カ ー ネ ル の 
( 図 1)。 フ ァイル 名 の 「vmlinuz-| に 
縮 く が 、 カ ー ネ ル の パ バージ 
を 表し て いま す 。 複 数 の パー ジ 
2 し て いる の は 、Ubuntu を 更新 
、 バ ダグ 修 正 な ど を 含ん だ 


ョ ン 


Ubun ン 


WW ーー ル し た PC を 用 意 し て くだ さい 新しい パー ジョ ン の カー ネル が 追加 
で イン スト ー ル され る た めで す 
図 1 の 例 で は 「3.130] が カー ネ 


カー ネル の 実体 
を 確認 する 
まず 、 何 は と も あれ カー ネル の 実 
体 を 見 て み ま す 。Linux で は 、 基本 


ル の オリ ジ ナ の 後 
の 数 字 が Ubuntu (また は その 基 と 
な る Decbjian) で の 修正 版 を 管理 
カー ネル の 実体 


ル バ ー 


る リビジョン で す 


的 に カー ネル が “" 単 一 の ファ イル " は 、 ヘ ッ ダ ー 情 報 や 自己 展開 プロ グ 
に な っ て いま す 。 こ の ファ イル は 、 ラム が 付い た 圧縮 形式 に な っ て いま 
Linux の 起動 に 必要 な ファ イル 群 を 。 す 。 バ パー ジョ ン 3.130 の 場合 、 フ ァ 


格納 1 イル サイ ズ は 6M バ イト 程度 で す 


実際 に 動い て 


いる 「/bootl ディ レク ト 


リー に 置か れ て いま す 


る カー ネル の パー 


$ 1s /boot 日 


(中 路 ) デ 
ab1 -3.13.0-29-generic memtest86+。e1f 

ab1 -3.13.0-32-genertc memtest86+_mul L 
conffg-3.13.0-24-gener1c 

config-3.13.0-27-generfc 

conffg-3.13.0-29-gener1c 


conffg-3. -32-generic 


図 1 /boot デ ィ レ クト リー に ある ファ イル 
「vmlinuz-」 で 始ま る ファ イル が カー ネル の 実体 だ 


| 問 野 4 


ジョ ン は 、「uname] コマ ンド 
べら れ ま す 
オプ ショ ン ッ 


ン 情 報 を 


uname コ マン ド ( 


$ uname -r 器 
3.13.0-32-generic 
多く の 機能 を モジ ュー ル と し て 分 離 
Linux の 開発 は 「MINIX」 と いう 
0S へ の 不満 が きっ か け で し た 。MI 
NIN は Linux と 異な り 、 カ ー ネ ル 本 
小 限 に し て 各 機 能 を 別 の プロ 


グラ ム に 分 苑 し た 「 マ イク ロカ ー ネ 
ル 」 の 構造 を 採っ て いま す 。 そ れ に 
対し て Linux で は 、 開 発し や すさ や 
実用 性 を 重視 し て 「 モ ノリ シッ ク カ 
ー ネ ル ] の 構造 を 採用 し た と いわ れ 
て いま す 


と は v 


周辺 機器 を 制御 する 
た め の 「 デ パイ ス ド ラ イ バ 」 の よう 
な 、 動 作 環境 に よっ て は 不要 な 機能 
まで カー ネル 本 体 に 組み 込ん で お く 
の は 、 現実 的 で は あり ませ ん 。 カ ー 
ネル の ファ イル サイ ズ が 肥大 化し た 
、 新 し い デ バイ ス の デバ イス ドラ 

バ が 必要 な と 
ル - * し 直さ 


く て は いけ な 
た りす る か ら で す 
そこ で 、Linux カー ネル で は 、 カ ー 

ネル 機能 の う 不可 欠 で な い 

カー ネル 本 体 か ら 外 に 出し 、 

単独 の ファ イル に し て いま 


も の を 


カ 三 ネル の 動作 を 知る 


ぁ = 


必要 な と き に 組み 込め て 
不要 な と き に 取り 外せ る 


カー ネル 


\ 


$ 1s -F /]1ib/modu1es/ 
arch/ crypto/ drivers/ fs/ 


図 3 モジ ュー ル を 格納 し て いる ディ レク トリ ー 
カテ ゴリ ー ご と に 分 けら れ で いる 。 


generic/kernel 器 


1ib/ mm/ net/ sound/ ubuntu/ 


$ 1s -F /]1b/modules/3.13.0-32-gener1c/kernel/drivers/net/wireless 品 
adm8211 .ko atmel_pcf.ko 1wlegacy/ Orinoco/ ti/ 
airo.ko b43/ iwlwifi/ p54/ w13501_cs.ko 
airo_cs.ko b431egacy/ libertas/ ray_Cs・Ko zd1201.ko 
at76c50x-usb.ko brcm80211/ 1jbertas_tf/ rndfs_wlan.ko zd1211rw/ 
ath/ cw1200/ mac80211_hwsim.ko rt2x00/ 
atmel.ko hostap/ mwfffex/ rt1818x/ 

mw18k.ko rtlwifi/ 


は コロ 


図 2 機能 を モジ ュー ル と し て 分 離 
モジ ュー ル を 自由 に 組み 込ん だ り 、 外 し た り で き 
る 。 


す 。 起動 後に 必要 に 応じ て それ ら を 
組み 込め る よう に し て いる の で す 。 
この よう に ファ イル 化 され た 各 機 能 
を 「 モ ジュ ー ル 」 (また は 「 カ ー ネ 
ル モ ジ ュー ル 」) と 呼び ます ( 図 2) 。 
モジ ュー ル の ファ イル は 「/lib/mo 
dules/ カ ー ネ ル の パー ジョ ン 」 ディ 
レク トリ ー の 下 に 置か れ て いま す 
その 下 の 「kernell ディ レク トリ ー 
を ls コマ ンド で 見 て みる と 、 サ ウン 
ド や ファ イル シス テム 、 ネ ッ ト ワ ー 
ク な どの カテ ゴリ ー ご と の ディ レク 
トリ ー に 分 類 き され て いる こと が 分 か 
り ま す ( 図 3)。 

例え ば 、 無 線 LAN の デバ イス ド ラ 
イ バ は 、kernel デ ィ レ クト リー の 下 
の 「drivers/net/wireless] ディ レ 
クト リー に あり ます ( 図 4)。 コ ント 
ロー ラー チッ プ 名 や メー カー 名 ご と 
に 、 デ バイ ス ド ラ イ バ が カー ネル モ 
ジュ ー ル と し て 冒 か れ て いま す 。 カ 
ー ネ ル モジ ュー ル の ファ イル は 朱 張 
子 が 「.ko] に な っ て いま す 。 

な お モジ ュー ル を 読み 込ん だ り 取 
り 外し た り で きま す が 、Linux は モ 
ノリ シッ ク カ ー ネ ル で す 。 


モジ ュー ル の 組み 込み や 取り 外し 
現在 組み 込ま れ て いる モジ ュー 
ル の 一 覧 は 、「lsmod] コマ ンド で 


「ko」 の 拡張 子 が 付い た フ 
アァ アイル が モジ ュー ル (デバ 
イス ドラ イ バ ) 


$ 1smod ロ 
Module 
Snd_ens1371 
snd_ac97_codec 


(以下 、 省 略 ) 


図 5 組み 込ま れ て いる モジ ュー ル 
lsmod コ マン ド で 表示 で きる 。 


ディ レク トリ ー の 
場合 、 そ の 中 に デ 
バイ ス ド ラ イ バ が 
格納 され て いる 


Used by 


図 4 無線 LAN の デバ イス ドラ イ バ 
を 格納 し て いる ディ レク トリ ー 
コン トロ ー ラ ー チ ッ プ 名 や メー カー 名 ご 
と に デア バイ ス ド ラ イ バ が モジ ュー ル と し 
て 用 意 さ れ て いる 。 


依存 関係 が ある モジ ュー ル 


$ cat /]1b/modules/3.13.0-32-generic/modules.dep 品 
kernel/arch/x86/kerne1/cpu/mcheck/mce-1n]ect.ko: 


kernel/arch/X86/crypto/aeS-X86_64.KO: 
867cryp 56 64 


図 8 モジ ュー ル の 依存 関係 
module.dep フ ァイル に 記録 され て いる 。 


確認 で きま す ( 図 5)。 1 行 目 に 各 列 
の 説明 が あり ます 。1 列 目 が 組み 込 
まれ て いる モジ ュー ル 名 、2 列 目 が 
その モジ ュー ル の サイ ズ で す 。3 列 
目 は 、 そ の モジ ュー ル に 依存 し て 
いる 他 の モジ ュー ル で す 。 カー ネル 
内 の ある 機能 を 有効 に する の に 1 つ 
で は 足り ず 、 別 の 
モジ ュー ル も 必要 な 場合 は この よ 
うな 依存 関係 が 発生 し ます 。 依 存 
関係 は 「depmod] コマ ンド り 
「/lib/modules/ カ ー ネ ル の バー ジョ 
ン /modules.depD] ファ イル と し て 


kernel/crypto/xts.ko kerne1/crypto/1rw.ko … 


記録 さき れ て いま す ( 図 6)。 モ ジュ ー 
ル の 詳細 情報 は 「modinfo] コマ ン 
ド で 表示 で きま す 。modinfo コ マン 
ド に は 、 モジ ュー ル 名 また は モジ ュ 
ー ル の ファ イル 名 を 指定 し ます 。 例 
えば 、 フ ァイル シス テム 「XFS] の 
モジ ュー ル 「xfs」 の 情報 を 表示 す 
る と 、 図 7 の よう に な り ま す 。 

モジ ュー ル を 手動 で 組み 込む に は 
[modprobe」 コマ ンド を 使い ます 。 
Ubuntu 14.04 の 場合 、 前 述 の xfs は 、 
デフ ォ ル ト (初期 状態 ) で は 組み 込 
まれ て いま せん 。modprobe コマ ン 


$ modinfo xfs 中 
fflename: 
11cense: 
description: 
author: 

afas: 


GPL 


fs-xfs 
srcversfonz 
depends: 1ibcrc32c 
1ntree: Y 
Verma1c: 
signer: 
s1g_key: 


s1g_hashalgo: sha512 


/11b/modules/3.13.0-32-generic/kernel/fs/xfs/xfs.ko 


019C16B1F798F9CACD164CA 


3.13.0-32-generic SMP mod_unload modversions 
Magrathea: Glacier stgning key 
5E:3C:OF:9C:A6:E3:65:43:53:5F:A2:BB:5B:70:9E:84:F1:6D:A7:C7 


図 7 modinfo コ マン ド で モジ ュー ル の 情報 を 表示 


XFS フ ァイル シス テム の モジ ュー ル [xfs」 の 例 。 


$ 1smod | grep xfs 品 ペー xfs モ ジュ ー ル は 組み 込ま れ て いな い 


( 何 も 表 示さ れ な い ) 

$ sudo modprobe xfs 回 
$ lsmod | grep xfs 器 
xfs 

1ibcrc32c 


912173 0 ー xfs モ ジュ ー ル が 組み 込ま れ た 
12644 1 xfs ペー 


依存 関係 が め る モジ ュー ル も 組み 込ま れ た 


図 8 modprobes コ マン ド で モジ ュー ル を 読み 込む 
前 後に lsmod で 確認 する と 、 依 存 し て いる モジ ュー ル も 読み 込ま れ て いる こと が 分 か る 。 


$ sudo modprobe -r xfs 器 


$ ]smod | grep xfs 口 ペー xfs モ ジュ ー ル が 取り 外さ れ た 
( 何 も 表示 され な い ) 


図 9 モジ ュー ル を 取り 外す 
modprobe コ マン ド に 「-」 オ ブ プション を 指定 する 。 
ド で 組み 込む と 、lsmod で 表示 きれ 
る よう に な り ま す ( 図 8)。xfs が 依 
存 し て いる 「libcrc32c」 も 一 緒 に 組 
み 込 まれ て いる こと が 分 か り ます 。 
組み 込ん だ モジ ュー ル を 取り 外す に 
は 、modprobe コ マン ド に 「-r| オ 
プシ ョ ン を 指定 し て 実行 し ます ( 図 
9)。 modprobe コマ ンド は 、 新しい 
周辺 機器 の め ド ライ バ な ど を カー ネル 
モジ ュー ル と し て 組み 込む と き の 動 
作 確 認 に 便利 で す 

以上 の よう な 操作 で 、 カ ー ネ ル に 機 
能 を 簡単 に 追加 で きま す 。 な お 、 そ 
れ に は 有効 に し た い 機 能 が モジ ュー 
ル と し て 組み 込め る よう に 、 カ ー ネ ル 
自体 を 設定 し て お か な けれ ば いけ ま 
せん 。 Ubuntu 14.04 に 含ま れる カー 
ネル で は 、 多 く の 機能 が モジ ュー ル と 
し て 組み 込め る よう に な っ て いま す - 
で す が 、 ま れ に それ が 有効 に な っ て 
と も あり ます 。 そ の 場合 は 、 


いな いこ 


第 5 章 で 説明 する よう な 手順 で カー ネ 
ル を 再 構築 する 必要 が あり ます 


プロ セス 管理 の 
働き を 確認 する 


第 1 章 で 説明 し た よう に 、Linux 
で は 複数 の プロ モス が 同時 に 実行 さ 
れ て いま す ( 図 10)。 こ れ ら の プロ 
セス は 、 タ スク スケ ジュ ー ラ ー に よ 
っ で スケ ジュ ー リ ング され な が ら 、 
CPU で 処理 され ます 。 それ を コマ ン 
ド で 確認 し て いき まし ょ う 。 

実行 中 の プロ モス は 、「ps] コマ ン 
ド に 「ax」 オプ ショ ン を 付け て 実行 
する と 一 覧 表示 され ます (p.26 の 図 
11)。1 行 に 1 プロ モス の 情報 が 示さ 
れ ま す 。1 列 目 が プロ モス を 一 意 に 識 
別 する 数 字 の 「PID」 (プロ セス TD) 
で す 。 5 列 目 は 、 そ の プロ モス を 起動 
し た ブロ グラ ム (アプ リケーション 


と 


動作 の 仕組 み を 解き 明か す 
hh、 3 


S6I XFS with ACLs, security attributes, rea]ltime, large block/1node numbers, no debug enabled 
Si1tcon Graphfcs, Inc. 


op コマ ンド の CPU 
使用 率 で CPU の 利 
用 時 間 が 分 割 さ れ 
て 分 け 与 えら れ て 
いる こと が 分 か る 


1 度 に 実行 で きる 
プロ セス は 1 つ 


図 10 複数 の プロ セス が 同時 に 実行 
タス クス ケ ジ ュ ー ラ ー に よっ て 、 プロ セス の 実行 が 
管理 され て いる 。 


な ど ) で す *!。 こ の よう に 多く の プ 
ロモ ス が 同時 に 実行 され て いま す 。 
「top] コマ ンド を 使う と 、 プ ロ 
セス の 状況 え リ アル タイ ム に 表示 し 
ます 。top は 、ps で 出力 し た 情報 を 
CPU や メモ リー の 使用 率 な ど を 含め 
て 端末 に 表示 し 、 デ フォ ルト で 1 秒 
ご と に 更新 する コマ ンド で す *\2 ( 写 
真 1)。 所 定 の 時 間 が 経過 する た び 
に 、CPU の 使用 率 が 変化 する こと か 
ら 、CPU の 利用 時 間 を 分 割 し て 複数 


【 ビ ルド 】 コン バイ ル や 、 ラ イブ ラリ の リン ク を 
実施 し て 実行 可能 な プログラム を 作る ご と 。 


* ネ 1 5 列 目 の プ ログ ラム が 角 カ ッ コ ([]) で 固 
まれ て いる プロ セス が あり ます 。 こ れ は 、 カ ー ネ 
ル ( 特 権 ) モー ド で 動作 し て いる プロ セス で す 。 
アプ リケーション の プロ セス は 、 ユ ー ザ ー モ ー ド 
いい う 制限 され た 環境 で 動作 し ます 。 ハ ー ド ウ 
エア を 直接 制御 する プロ グラ ム の プロ セス は 
カー ネル モー ド で 動作 し ます 。 

 *2 top コ マン ド を 終了 する に は [Q] キ ー を 
押し ます 。 


章 全力 計 ネ ル の 動作 を 知る 


表 1 /proc/ プ ロ セ ス ID 内 の 主 な ファ イル や ディ レク トリ ー 


cmdi プロ セス を 起動 し た と き の コ マン ド 情 報 
cwd プロ セス の カレ ント ディ レク トリ ー へ の シン ボリ ッ ク リ ンク (実体 


を 指し 示す ファ イル ) 
environ 環境 変数 の 内 容 
ex@ プロ セス を 起動 し た 実行 ファ イル へ の シン ボリ ッ ク リ ンク 
| プロ セス が オー プン し て いる ファ イル ディ スク プター (識別 子 ) 
maps プロ セス の 仮想 メモ リー 空間 の 利用 一 覧 
oom_score、oom_score_adj OOMKiller き の ス コア ー の 現在 の 値 と 、 そ れ を 調整 する 設定 値 写真 1 プロ セス の 稼働 状態 を 表示 
status プロ セス の 状況 を 示す 情報 時 間 が 経過 する た びに 、CPU の 使用 率 が 変化 する 。 
task 2 ド 。 各 スレ ッ ド の 中 に は /proc/ プ ロ セ ス ID と 似 

に | デ ク リー に と 
【OOM Killer】 メモ リー が 不足 し て シス テム 停止 に 陥り そう な 場合 に 強制 的 に プロ セス を 終了 し て 2 まこ る 
空き メモ リー を 作る 仕組 み っ て いま す ( 図 12)。 こ こ に は 、 情 


報 の 項目 ご と に 擬似 的 な ファ イル が 
用 意 き れ て いま す ( 表 1)。 例え ば 、 
「cmdline」 の 中 身 を 見 る と 、 そ の プ 
ロ セ モス を 起動 し た と き の コ マン ド 名 


や オプ ショ ン が 分 か り ま す ( 図 13) 
ワー プロ ソフ ト 「LibreOffice 
Writerl の プロ セス 
1 
/usr/11b/11buntty-webapps/unity-webapps-service 優先 制御 を 確か め る 


/usr/11ib/1ibreoffice/program/oosplash --writer タス クス ケ ジ ュ ー ラ ー は 、CPU の 
利用 時 間 を 、 各 プロ モス に 対し て 公 
平 に 割り 当て ます 。 し か し 、 中 に は 俊 


図 11 実行 し て いる 全 プ ロ セ ス を 表示 先 し た い 処 理 も ある で し ょ う 。 その た 
PS コマ ンド に 「axl オ プシ ョ ン を 指定 する 。 め 、 刻 り 当 て 時 に いく つか の パラ メー 


ター の 値 も 考慮 し て 順番 を 決め ます 
5 sudo 1s -F /proc/3258 ロロ 


attr/ cpuset 1atency 。 mountstats personality stat その 中 の 一 つ で 、 一 般 ユ ー ザ ー 権 限 
autogroup cwd@ 1fmits net/ Pr9J1d_map 。 statm で 操作 で きる の が 「nice 値 | で す 
auxv environ 1oginuld ns/ root@ status は を っ 「 間 
cgroup exe@ map_files/ numa_maps sched sysca11 nice 値 に 正 の 値 (最高 で 「19]) 
clear_refs fd/ maps oom_adi schedstat task/ を 指定 する と 、 その 分 だ け 実 行 の 優 
例え ば 、 コ ン パ 


6 BCts PPHUHO GEOCRI ETE 。 CD AE) 
coredump_fIlter 1o mounts Pa9emap stack wchan イル の よう な 人 負荷 が 高い 処理 は 、 急 
図 1? プロ セス の 詳細 情報 が な い 場 合 、 nice 値 を 付け て バッ ク 
プロ セス ID が [3258」 の 例 。 プ ロ セス に 関連 する 各 情報 が 1 つの ディ レク トリ ー 内 に まとめ られ て いる グラ ウン ド で 実行 する と よい で し ょ 
う *3。 シ ステ ム 管 理 者 (root) 権限 
2 人 A に 分 4 し で てい る こと が 條 で きま す 。/proc ディ レク トリ ー 以 下 。 で 実行 する プロ モス で あれ ば 、 負 の 
か り ま す 。 こ れ は 、 タ スク スケ ジュ の ファ イル や ディ レク トリ ー は 、 デ ィ 値 (最小 で 「-20」) を 指定 し て 、 優 
ー ラ ー の 働き に よる も の で す E す る わけ で は あり ませ 先 度 を 上 げ る こと も 可能 で す 
ん 。 カ ー ネ ル 内 部 の 情報 を 擬似 的 に 、 nice 値 を 指定 す る に は 、「nice」 コ 


プロ セス の 詳細 情報 を 得る ディ レク トリ ー で 分 けら れ た ファ イル マン ド を 用 いま す 。 図 14 の よう に 、 
各 プ ロ セ ス の 情報 は 「/proc」 ディ と し て 見 せ て いる も の で す 先 度 を 変更 し た た い コ マン ド の 先 
レク トリ ー か ら 、 フ ァイル と し て 確認 プロ セス ご と の 情報 は 「/proc/ プ 頭 に 「nice -nnice 値 」 を 追加 し ま 


LibreOffice Witer で sample.odt1 フ ァイル を 編集 


oc/3258/cmd1fne ロ 


usr/1tb/11breofffce/program/sofffce.b1 


図 13 プロ セス を 起動 し た と き の コ マン ド 情 報 を 表示 
プロ セス ID が 「3258」 の 例 。 


す 。 ま た 、 実行 中 の プロ モス の nice 
値 を 知る に は 、ps コ マン ド の 「ol 
オプ ショ ン で 出力 項目 に 「nice] を 
指定 し ます 。 こ れ に よっ て 「NI] の 
列 に nice 値 が 表示 され ます 。 


メモ リー 管理 の 

(⑥zicaWss 
Linux で は 、 さ ま ざ ま な プロ モス 
が それ ぞ れ 固有 の メモ リー 空間 ( 仮 
想 メ モリ ー) を 持ち ます ( 図 15)。 
メモ リー 空間 は 「 ペ ー ジ 」 と 呼ば れ 
る 決ま っ た 大 き さ の 単位 に 分 けら れ 
で て いて 、 プ ロ セ ス が 仮想 メモ リー を 
利用 する 分 だ け 、 ペー ジ 単 位 で 物理 

メモ リー か ら 割 り 当 て ます 。 
また 、 物 理 メ モリ ー 不 足 を 生じ さ 
せな いた め に 「 ス ワッ プ 」]| が 用 意 さ 
れ て いま す ( 図 16)。 あ まり 頻繁 に 
アク セス され て いな いり 仮想 メモ リー 
の ペー ジ を 、 必 要 に 応じ て ディ スク 
に 書き 出す た め の 領域 で す 。 仮 想 メ 
モリ ー の ペー ジ に 対応 する 物理 メモ 
リー の 中 身 を スワ ッ プ 内 に 移動 すれ 
ば 、 対応 する 物理 メモ リー は 空き メ 

モリ ー と な っ て 再 利用 で きま す 。 


実際 の 空き メモ リー を 調べ る 
仮想 メモ リー を 直接 見 る こと は 
難し いで す が 、 物理 メモ リー の 状況 
な ら 簡 単に 調べ られ ます 。「free] コ 
マン ド を 実行 する と 、 物 理 メ モリ ー 


*free -m ロ 


Memz 
-/+ buffers/cache: 
Swap: 


キャ ッシュ を 除い た メモ リー 使用 量 
(「Mem」 の 「used] か ら 「buffers] と 
「cached] の 値 を 差し 引い た も の ) 


図 17 物理 メモ リー の 状況 
free コ マン ド で 表示 で きる 。 


動作 の 仕組 み を 解き 明か す 


バッ ク グ ラウ ンド で の 実行 を 指定 


$ nice -n 同 Eeep 19] 賠 ロー- sleep コ マン ド を バッ ク グ ラウ ンド で 実行 
$ ps o pid,nice,cmdNa ーー ps コマ ンド で nice 値 を 確認 


PID NICMD 
2375 0bash 
3417 


3418 Ops opid,nfce.cmd 


図 14 nice 値 を 指定 し て コマ ンド を 実行 する 


Ps コマ ンド の 「NI] 列 に nice 値 が 表示 され る 。 


プロ セス が 自由 に 使え る メモ 
リー 空間 (一 郎 カー ネル で 使用 ) 


メモ リー が 必要 に 
な っ た ら 割 り 当 て る 


図 15 プロ セス が 使用 する メモ リー 
プロ セス ご と に 自由 に 使え る メモ リー 空間 (仮想 メ 
モリ ー) が 与え られ る 。 


の 総量 と 、 使 用 中 の メモ リー の 量 、 

空い て いる メモ リー の 量 が 分 か り ま 
す 。 デ フォ ルト で は バイ ト 単 位 で 数 
字 が 大 きく な っ て し まう の で 、「-m] 
オプ ショ ン を 付け て M バ イト 単位 の 
値 を 表示 し ます 。 図 17 の 出力 千 果 
の うち 、「totall 列 の 「1994] が メ 
モリ ー の 総量 、「used」 列 の 1418M 
バイ ト が 使用 中 の メモ リー の 量 、[fr 
ee」 別 の 575M パ イト が 空い て いる メ 
モリ ー の 量 で す 。 


sha 人 Ta 


ペー ジ キ ャ ッシュ の 使用 量 


使用 可能 な メモ リー 量 (「Mem] 
の 「free] に 「bufers] と 「cach 
ed] の 値 を 加え た も の ) 


六 すべ て M バ イト 単位 


7 4 


同 sleep 10 ーー nice 価 が [6」 に 設定 され て いる 


⑥ 空 き メ モリ ー 
と し て 使え る 


⑩ メ モリ ー が 不足 し 
て きた 場合 、 あ まり 
使わ れ な く な っ た メ 
モリ ー の 内 容 *1 を 
スワ ッ プ に 退避 する 


* ま 1 アプ リケーション の デー タ 
図 16 スワ ッ プ 

物理 メモ リー の 不足 を 解消 する た め に 、 ハ ー ド ディ 
スク 上 に メモ リー の 内 容 を 退避 する 。 

た だ し 、 こ の 数 字 の 見 方 に は 注意 
が 必要 で す 。Linux で は 、 プ ロ セ モス 
が ディ スク に 対し て ファ イル を 読み 
書き する と き に 、 カ ー ネ ル が その 内 容 
を 「 ペ ー ジ キャ ッシュ 」 と いう メモ 
リー 領域 に 一 時 的 に 保持 し ます (p 
28 の 図 18)。 同 じ フ ァイル を 再度 読 
むこ と が あれ ば 、 キ ャ ッシュ 上 の フ 
ァイル を 再 利用 で きる の で アク セス 
が 高速 化し ます 。 

また 、 フ ァイル を キャ ッシュ に 書き 
込ん だ 時 点 で ディ スク へ の 書き 込み 
完了 の 応答 を プロ セス に 返し ます 。 
これ に より 、 プ ロ セ モス が ディ スク へ 
の 書き 込み 完了 を 待つ 必要 が な く な 


まま 3 シェ ル に よっ て は 、 バ ッ ク グ ラウ ンド で 実 
行 する プロ セス に nice 値 を 自動 的 に 付け る 場 
合 も あり ます 。 


- 


カ 三 ネル の 動作 を 知る 


ー ncl コマ ンド を 実行 し 、 デ ィ ス ク に 


ファ イル を 反映 し て お きま し ょ う 。 
で は 、 ペ ー ジ 回 収 を 確認 し て み ま 
す 。 図 19 で は 、sync コ マン ド を 実 
行 し た 後 で /proc/sys/Vm/drop_ca 
che に 「3] を 書き 込み 、free コ マン 
ド を 再び 実行 し て いま す 。 そ の 結果 、 
buffers の 値 が 10] に な り 、cached 
の 値 も 「583] か ら 「173] へ と 必要 
な も の を 残し て 大 きく 減り まし た 。 


同じ デー タ を 再度 読み 出す と | ん 基 し きま か み 
き は 高速 に アク セス で きる ヨ 

読み 出し た デー タ を 一 時 的 に し し プロ セス の 処理 と は 非 同 期 
保存 する 本 に 実施 され る 


図 18 ペー ジ キ ャ ッシュ 
ディ スク へ の 読み 書き の 高速 化 に 利 
用 され る 。 


キャ ッシュ に 青き 込ん だ 時 
点 で 応答 を 返す 


* sync 品 ペーー ペー ジ キ ャ ッシュ 内 の ファ イル を ディ スク に 反映 

$ sudo sh -c "echo 3 > /proc/sys/Vm/drop_caches' ロペ ーー 『oot 権 限 で 「3」 

? free -m 口 ペー 再び メモ リー の 使用 時 を 見 る を 書き 込む 
tota1 used free shared buffers 

Mem: 1994 963 1031 4 @ 

-/+ buffers/cache: 790 1204 

SWap: 2044 0 2044 


図 19 強制 的 に ペー ジ 回 収 
/proc/sys/vm/drop_caches フ ァイル に [3] を 書き 込む 。 


スワ ッ プ の 使用 量 を 見 る 

スワ ッ プ で ディ スク に 書き 出さ れ 
た 仮想 メモ リー の 量 は 、 free コマ ン 
ド の 出力 の 最終 行 で ある 「Swap] 
の 行か ら 分 か り ま す 。p.27 の 図 17 で 
は 「used] が 「0」 な の で スワ ッ プ 


cached 


キャ ッシュ の 使用 量 が 減少 


ファ イル の 読み 書き 


図 29 デパ イス ファ イル 
プロ グラ ム か ら は ファ イル の よう に アク セス ずる 
だ け で デバ イス を 操作 で きる 。 


り 、 書 き 込み 処理 を 高速 化 で きま す 。 
加え て 、 異 な る プロ セ モス の ファ イル も 
まとめ て ディ スク に 書き 込め る の で 、 
ディ スク へ の アク セス 回 数 を 減ら せ 
て アク セス 効率 も 向上 し ます 。 こ の 
ペー ジ キ ャ ッシュ は 、 空 き メ モリ ー 
が 少な く な っ て くる と 物理 メモ リー 
を 空け る た め に 捨て られ ます 。 

p27 の 図 17 の 1418M バ イト と い 
う 数 字 は 、 ペ ー ジ キャ ッシュ を 含ん 
だ 使用 中 の メモ リー 量 で す 。 ペ ー ジ 
キャ ッシュ の 使用 量 は 、 右 端 の 「cac 


hed] の 別 の 583M バ イト で す 。 そ の 
左 の 「buffers] は 、 プ ロッ ク の メタ 
デー タ (付属 情報 ) や で raw デー タ 用 
の キャ ッシュ で す 。cached や bufle 
rs を 除い た メモ リー 使用 量 は 、「-/+ 
buffers/cache」 の 行 を 見 る と 分 か り 
ます 。 図 17 で は 「used] が キャ ッ シ 
ュ を 除い た メモ リー 使用 量 で 784M 
バイ ト 、[「free」 が 実際 に 利用 可能 
な 空き メモ リー の 量 で 1210M バ イト 
と な っ て いま す 。 


ペー ジ 回 収 を 体験 する 

キャ ッシュ を 解放 し て 空き メモ リ 
ー に する こと を 「 ペ ー ジ 回 収 ] と 呼 
び ま す 。 こ の ペー ジ 回 収 は 自動 的 に 
実施 され ます が 、 前 述 し た /proc デ 
ィ レ クト リー 内 に ある 「/proc/sys/ 
vm/drop_cache」 ファ イル を 使っ て 
強制 的 に 実施 する こと も 可能 で す 。 
具体 的 に は 、 こ の 医 似 ファ イル に 
root 権 限 で 「3] を 書き 込む セ と 、 キ 
ャ ッシュ が 解放 され ます 。 な お 、 デ 
ィ ス ク に 書き 込ま れ て いな い フ ァ イ 
ル を 持つ ペー ジ キ ャ ッシュ を 解放 し 
て し まう と 困る の で 、 あ ら か じ め 「sy 


エン ブタ 


は 全く 使わ れ て いま せん *4 

ちな み に ス ワッ プ の 使用 量 だ け な 
ら 「swapon] コマ ンド に 「-s」 オ 
プシ ョ ン を 指定 し て 実行 し て る 分 か 
り ま す *5。 


デバ イス 管理 の 
働き を 確認 する 
PC に 内 蔵 、 ま た は 外 付け され た 


各種 デバ イス (周辺 機器 ) を 管理 す 
る の も カー ネル の 仕事 で す 。 


デバ イス ファ イル を 一 覧 する 

第 1 章 で 説明 し た よう に 、 ネ ッ ト ワ 
ー ク を 除く デバ イス は 、 プ ログ ラム 
(アプ リケーション な どの プロ モス) 
と デー タ を や り 取 りす る 際 に 、「 デバ 
イス ファ イル 」 (また は スペ シャ ルフ 
テ ァイル ) を 使い ます ( 図 20)。 こ れ 
は 、「/dev」 ディ レク トリ ー 内 に 存 
在 し ます ( 図 21)。 

ハー ド デ ィ スク や 、 フ ラッ シュ メ 
モリ ー の 半導体 ディ スク 「SSD] な 
どの デバ イス ファ イル に は 、 大 抵 
「sd」 で 始ま る 名 前 が 付い て いま す 。 
1 台 目 の ディ スク が 「sda] と な り 、 


さら に その 中 の パー ティ ショ ン を 意 
味 す る 「sdall「sda2] と いっ た デ 
パイ ス フ ァ イル が 存在 し ます 。 


デバ イス の 種類 を 判別 する 
図 22 は 、 ハ ー ド ディ スク 内 の パ 
ー テ ィ イシ ョ ン で ある デパ イス ファ イ 
ル の 「/qdev/sdal」、 も し く は 端末 
(キー ポー ド や ディ スプ レイ を 抽象 
化し た も の ) の デパ イス フ ァイル で 
ある 「/dev/tty」 を 引数 に し て 、js 
コマ ンド に 「-] オプ ショ ン を 付け 
て 実行 し た 結果 で す 。 出力 結果 の 先 
頭 を 注目 し て くだ さい 。/dev/sdal 
の 場合 は 「b」 の 文字 が 、/dev/tty 
の 場合 は 「c」 の 文字 が 表示 され て 
いま す 。 こ れ は 、 それ ぞ れ 「 プ ロッ 
ク デ バイ ス 」 と 「 キ ャ ラク ター デバ 
イス 」 を 表し て いま す 。 

プロ ッ ク デ バイ ス と キャ ラク ター 
デパ イス に つい て は 、 第 1 章 で 簡単 
に 説明 し まし た 。 プ ロッ ク デ バイ ス 
は 、 一 定 の サイ ズ の 塊 (プロ ッ ク ) 
単位 で 読み 書き する デバ イス で す 。 
ディ スク な ど が 相当 し ます 。 プ ロ 
ッ ク デ パイ ス で は 、 デ パイ ス 上 の 指 
定 し た 位置 に ある デー タ の 読み 書き 
(ラン ダム アク セス ) が 可能 で す 。 

- 方 の キャ ラク ター デバ イス は 、 
1 バイト (文字 ) 単位 で 読み 書き す 
る デバ イス で す 。 キ ー ボ ー ド な ど が 
相当 し ます 。 キ ャ ラク ター デバ イス 
で は 、 先頭 か ら 順 番 に 読み 書き する 
(シー ケン シャ ル ア ク セス ) と いう 
特徴 が あり ます 。 

こう し た デパ イス の 一 覧 は 、/proc 
ディ レク トリ ー の ファ イル や 、 コ マ 
ンド か ら も 確認 で きま す ( 表 2)。 


デバ イス へ の アク セス を 試す 

デバ イス ファ イル に 対し て 読み 書 
きす る こと で 、 デ バイ ス を 制御 で き 
ます 。 例 えば リダイレクト ま * を 使っ 
て 、/dev/tty に テキ スト を 書き 込む 


ニー 証 』 
SI | 


* 1s -F /dev ロ 
agpgart 
autofs 


1p0 
mapper/ 
mcelog 
mem 
net/ 


block/ 

bsg/ 
btrfs-control 
bus/ 

cdrom@ 
(以下 、 省 略 ) 


tty27 tty58 
tty28 tty59 
tty29 tty6 
tty3 tty60 
tty30 tty61 


ttyS30 
ttyS31 
ttyS4 
ttyS5 
ttyS6 


図 21 各種 デバ イス に アク セス する た め の フ ァイル 


「/devl デ ィ レ クト リー 内 に 置か れ て いる 。 


$ 1s -] /dev/sdal 中 


耳 w-rw---- 1 root disk 8. 1 7 月 21 12:13 7dev7sqa】 < ブロック デバ イス 


$ 1s -] /dev/tty 避 


12:36 マー キャ ラク ター デバ イス 


は w-rw-rw- 1 root tty 5.0 7 月 21 


図 22 ブロ ッ ク デ バイ ス と キャ ラク ター デバ イス 
ls コマ ンド に [| オプ ショ ン を 指定 する と 確認 で きる 。 


$ echo hello > /dev/tty 口 さ 
hello 


/dev/tty に 「hello] を 書き 込む 


$ echo hello > /dev/stdout 品 ーー /dev/stdout に 「hello」 を 書き 込む 
hello 


図 23 端末 (/dev/tty) や 標準 出力 (/dev/stdout) に 文字 列 を 書き 込む 


どちら も 錯 末 上 に 出力 され る 。 


家 2 デバ イス の 一 覧 が 見 られ る 疑似 ファ イル や コマ ンド 


/proc/devices フ ァイル 
/proc/scsi/scsi フ ァイル 
/proc/parttions フ ァイル 
lspci コ マン ド 

lsusb コ マン ド 


と 、 端 末 の 文字 出力 と し て 画面 に 表 
示さ れ ま す (p.30 の 図 23 の 上 )。 前 
述 し た よう に 、/qdev/tty は キー ボー 
ド や ディ スプ レイ を 抽象 化し た も の 
で す 。 入 力 元 は キー ボー ド 、 出 力 先 
は ディ スプ レイ に な っ て いま す 。 そ 
れ に より 、 デ バイ ス フ ァ イル に 書き 
込ん だ テキ スト が ディ スプ レイ 上 に 
表示 され た わけ で す 。 

標準 出力 の デパ イス ファ イル で 
ある 「/dev/stdout] も あり ます 。 
同じ よう に 書き 込む と 、 同 様 に 表示 
きれ ます ( 図 23 の 下 )。 


デバ イス ファ イル の 自動 追加 を 試す 

図 22 で は 、PC 本 体 の 内 蔵 ハ ー ド 
ディ スク で ある /dev/sda だ けが 表 
示さ きれ て いま し た 。 こ こ で USB メ モ 
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キャ ラク ター デバ イス と ブロ ッ ク デ バイ ス の 一 覧 
SCSI デ バイ ス の 一 覧 

パー ティ ショ ン の 一 覧 

PCI デ バイ ス 一 覧 

USB デ バイ ス 一 覧 


リー を PC に 挿し て み ま す 。 す る と 、 
新しく 「/dev/sdb] と 、 そ の 中 に 
ある パー ティ ショ ン の 「/dev/sdb1」 
が 現れ まし た (p.30 の 図 24)。 「dm 
eSg] コマ ンド を 実行 する と 、 新 し い 
デバ イス を 検知 し た カー ネル か ら の 
ログ を 確認 で きま す (p30 の 図 25) 。 


【 リ ダイ レク ト 】 コマ ンド の 入力 元 や 出力 先 を 
変更 する こと で す 。 入 力 元 を 変更 する に は 、 コ マ 
ンド の 後に 「<] を 指定 し て その 後に 入力 元 に 
な る ファ イル な ど を 指定 し ます 。 出 力 先 を 変更 す 
る に は 、 コ マン ド の 後に 「>」 を 指定 し て その 後に 
出力 先 に な る ファ イル な ど を 指定 し ます 。 


*4 Linux で は 、 実 行 効率 の た め に 使わ れ 
て いる ペー ジ キ ャ ッシュ を 解放 する より 、 使 わ 
れ て いな い プ ロ セ ス の 仮想 メモ リー を スワ ッ プ 
する 方 を 優先 する 場合 が あり ます 。 

キネ 5 複数 の スワ ッ プ 先 を 設定 し て いる 場合 、 
スワ ッ プ 先 (パー ティ ショ ン な ど ) ご と に 使用 量 


図 24 デバ イス ファ イル の 自動 追加 
USB メ モリ ー を 挿す と 「/dev/sdb」 が 現れ る 。 


$ dmesa ロ 
(中 隔 ) 


[ 5102.349743] usb 1-2.1: new hiqh-speed USB device number 4 using uhci_hcd 


[ 5102.624977] usb 1-2.1: 
(中 攻 ) 


[ 5103.686438] sdb: sdb1 
(以下 、 省 共 ) 


lew USB device found, fdVendor=04bb, idProduct=0c27 


図 25 USB メ モリ ー を 検出 し た カー ネル か ら の ログ 


dmesg コ マン ド で 表示 で きる 。 


デバ イス を 
接続 


グー 


図 26 udevy に よる デバ イス ファ イル 生成 
udevd デ ー モ ン に 作成 する 。 


$ udevadm mon1tor 生 


monftor wi]] print the recefved events for: 
UDEV - the event whfch udev sends out after rule processing 
KERNEL - the kernel uevent き - ここ で USB メ モリ ー を 挿す 


KERNEL[8355 .681223] add 
02:00.0/usb171 -2/1-2.1 (usb) 
KERNEL[8355 .683882] add 
02:00.0/usb1/1-2/1-2 .171-2.1:1.0 (usb) さ ー カー ネル か ら の 通知 


/devfices/pc10000:0070000:00:11.0/0000: 
/devices/pc10000:0070000:00:11.0/0000: 


図 27 新規 アバ イス が カー ネル か ら 通 知 さ れる 様子 


udevadm monitor で 確認 で きる 。 


Linux で は 、 デ バイ ス を 「udey」 と 
いう 仕組 み で 管理 し て いま す 。 udev 
で は 、Linux カー ネル が 新しい デパ 
イス を 検知 する と 、 そ れ を 「udevd] 
と いう デー モン ( 常 肝 プロ グラ ム ) 
に 通知 し ます ( 図 26)。 そ し て 、 あ 
ら か じ め 用 意 さ れ た ルー ル に 基づい 
て 、 udevd が デバイス フ ァイル を 作 


表 3 Linux の 主 な ファ イル シス テム 


る な どの 処理 を 実行 し ます 

カー ネル が udevd に 通知 する 様子 
は 「udevadm」 コマ ンド で 見 られ ま 
す 。「udevadm monitor] コマ ンド 
を 実行 し た 状態 で USB メ モリ ー を 
搬 す と 、 多 数 の メッ セー ジ が カー ネ 
ル か ら 送 られ て いる こと が 分 か り ま 
す *6 ( 図 27) 


ディ スク ex4 Ubuntu 14.04 の デフ ォ ルト の ファ イル シス テム 
ex3 ex4 の 基 に な っ た ファ イル シス テム 
VFAT USB メ モリ ー な ど で 使わ れる MS DOS 形 式 の ファ イル シス テム 
NTFS Windows NT 以降 に 採用 され た ファ イル シス テム 
XFS CentOS 7 の デフ ォ ル ト の ファ イル シス テム 
Btrfs スナ ッ プ ショ ッ ト や コピ ー オ ン ラ イト な どの 機 能 を 持つ 多 機 能 な 

ファ イル シス テム 

2 人 NFS UNIX 系 の ネッ トワ ー ク ファ イル シス テム 
CIFS Windows 系 の ネッ トワ ー ク ファ イル シス テム 

特 珠 procfs、sysfs ” カー ネル 内 部 の 情報 に ファ イル シス テム と し て アク セス する も の 
tmpfs 仮想 メモ リー に よる メモ リー ディ スク 
FUSE カー ネル 外部 の プロ グラ ム で ファ イル シス テム を 記述 する も の 


ファ イル シス テム の 
0⑳⑯⑩zds 
ディ スク な どの 記憶 デパ イス 内 を 
管理 し 、 デ ィ レ クト リー や ファ イル 
を 作っ て 読み 書き で きる よう に する 
「 フ ァイル シス テム | も カー ネル の 
機能 の ー つ で す 


ファ イル シス テム の 種類 を 一 覧 

Linux で は きま ざま な 種類 の ファ イ 
ル シ ス テム に 対応 し て いま す ( 表 3)。 
通常 の ディ スク の 上 に 作ら れ た ファ イ 
ル シ ス テム の ほか 、 ネ ットワーク 経由 
の ファ イル シス テム や 、 さまざま な 情 
報 に ファ イル シス テム の 形 で アク モス 
で きる よう に し た も の な ども あり ます 
( 図 28)。[FUSE」 (Filesystem in Us 
ersDace) を 使う と 、 カ ー ネ ル 上 の ファ 
イル シス テム で は な く 、 一 般 の プログ 
ラム と し て ファ イル シス テム を 構築 で 
きま す 。 例え ば 、 暗 号 化 され た 通信 
経路 「SSH」 で 接続 し た 先 の ファ イ 
ル に アク セス する よう な 特殊 な ファ イ 
ル シ ス テム が 実装 可能 で す 。 

PC で 現在 認識 され て いる 各 パ ー 
ティ ショ ン の ファ イル シス テム の 種 
類 は 、root 権限 で 「parted] コマ ン 
ド に 「-| オプ ショ ン を 付け て 実行 
する と 表示 され ます ( 図 29)。 ま た 、 
マウ ント され て いる ファ イル シス テ 
ム の 種類 に つい て は 、「mount| コ 


ロー カル ファ イル 
シス テム 


に ECJ 
ED 


特殊 な ファ イル シス テム 


語 


図 28 ファ イル シス テム 
さま ざま を な 種類 に 対応 し て いる 。 


ネッ トワ ー ク 
ファ イル シス テム 


* sudo parted -] 
モデ ル : ATA ST9500420AS (scsi) 
ディ スク /dev/sda: 500GB 
セク タ サ イズ ( 講 理 / 物 理 ): 512B/5128 
パー ティ ショ ン テ ー ブ ル : msdos 


開始 終了 
1049kB 1259MB 
1259MB 330GB 
330GB 4906GB 
330GB 483GB 
483GB 4906GB 
490GB 500GB 


サイ ズ 
1258MB 
3286B 
1606B 
1536B 
6537MB 
10.56B 


タイ プ 
primary 
Primary 
extended 
1ogica1 
1ogfcal 
primary Intfs 


11nux-swap(V1 ) 


図 29 認識 され て いる パー ティ ショ ン の ファ イル シス テム を 表示 
Too 権限 で parted コ マン ド に [| オプ ショ ン を 付け て 実行 する 。 


$ cat /proc/f1lesystems 器 
(中 申 ) 


ext3 
ext2 
ext4 
huget1bfs 


図 30 現在 の カー ネル が 対応 し て いる フ 
ァイル シス テム 
/proc/filesystems フ ァイル に 書き 込ま れ で いる 。 


Ez 


図 31 「VFS] (Virtual Filesystem) 

ファ イル シス テム に アク セス する プロ グラ ム と フ 
ァイル シス テム の 間 に 位置 し 、 フ ァイル シス テム の 
遣い を 吸収 する 。 


- 2 takahash1 takahash1 2054 7 月 21 16:15 memo.txt 
- 1 takahash1 takahash1 8862 7 月 20 16:09 sample.odt 


図 322 ファ イル の i ノ ソー ド 番 号 を 調べ る 
ls コマ ンド に [-] オ プシ ョ ン を 付け る 。 


マン ド が 出力 する マウ ント 情報 の 中 
に 含ま れ て いま す 

その PC 上 で 動作 し て いる カー ネ 
ル で 対応 し て いる ファ イル シス テム 
は 、「/proc/filesystems」 ファ イル 
に 一 覧 が あり ます ( 図 30)。 前 述 し 
た modprobe コ マン ド で この 一 覧 に 
な い フ ァイル シス テム の モジ ュー ル 
を 組み 込む こと で 、 対応 する ファ イ 
ル シ ス テム の 種類 を 増やせ ます 。 


VFS で の 管理 を 知る 
Linux が 多く の ファ イル シス テム に 
対応 し て いる 背景 に 、「VFS」 (Virtu 


表 4 Ubuntu 14.04 で 使え る 1/O ス 


noop 特別 な 処理 は し な い 。 十分 高速 か 賢い デバ イス 向け 
deadline 1/O 待 ち が 一 定時 間 内 に 終わ る こと を 重視 する 
CcFo プロ セス ご と に キュ ー を 持ち 、 処 理 が 公平 に 割り 当たる よう に する 


al Filesystem、 仮 想 フ ァイル シス テ 
ム ) の 存在 が あり ます 。VFS は 、 フ 
ァイル シス テム に アク セス する プロ 
グラ ム と ファ イル シス テム の 間 に 位 
置 し 、 フ ァイル シス テム の 違い を 吸 
収 し ます ( 図 31)。 各 ファ イル シス テ 
ム は 、 そ れ ぞ れ 固 有 の 管理 機能 や 制 
御方 法 を 実装 し て いま す 。VFS が あ 
る こと に より 、 フ ァイル シス テム に 統 
一 的 に アク セ モス で きる わけ で す 。 
VFS が 管理 する 情報 の ー つ に 
ノー ド 」 が あり ます 。Linux で は 、 
ファ イル を 格納 し て 管理 する ディ レ 
クト リー に 、 フ ァイル が 書き 込ま れ 


7 4 


図 34 sda が 利用 し て いる !/O ス ケ ジ ュ 
/sys/block/sda/queue/scheduler フ ァイル に 書き 込ま れ て いる 。 


動作 の 仕組 み を 解き 明か す 


図 33 I/O ス ケ ジ ュ ー ラ ー 
複数 の プロ グラ ム か ら の 読み 出し や 書き 込み を デ 
パイ ス の 特性 に 合わ せ て 整理 する 。 


で いる ディ スク 内 の プロ ッ タ ク 情報 が 
存在 する わけ で は あり ませ ん 。 デ ィ 
レク トリ ー は 、 フ ァイル が 書き 込ま 
れ た プ ブロック を 管理 する 情報 で ある 
i ノ ー ド を 保持 する こと で 、 間 接 的 
に ファ イル を 管理 し ます 。 

ij ノー ド に は 、 フ ァイル の 更新 時 間 
や 所 有 ユ ー ザ ー、 ア クセ ス 権 限 を 表す 
パー ミッ ショ ン な どの 情報 が 含ま れ て 
いま す 。ls に 「-i] オプ ショ ン を 付け 
て 実行 する と 、 フ ァイル 情報 の 左端 に 
ij ノー ド 番 号 が 表示 され ます ( 図 32)。 


I/O ス ケ ジ ュ ー ラ ー を 見 る 

ファ イル シス テム と 、 そ の 背後 
の デバ イス に は さま ざま な も の が あ 
り 、 特 性 も 異な り ま す 。Linux に は 、 
1O (入出 力 ) を 整理 し て 制御 する 
「I/O ス ケ ジ ュ ー ラ ー」 ( 図 33) が 複 
数 用 意 さ れ て いま す 。 デ パイ ス や 用 
途 に 応じ て 使い 分 けら れる よう に な 
っ て いる の で す 

Ubuntu 14.04 で 使え る 1/O ス ケ ジ 
ュー ラー は 表 4 の 3 種類 で す 。 利 用 き 
れる 1/O0 ス ケ ジ ュ ー ラ ー は 、 デ バイ ス 
単位 で 指定 され て いま す 。 現在 使わ 


、*6 udevadm コ マン ド は [Cl] キー と [C] 
キー を 同時 に 押す と 終了 し ます 。 


カ 三 ネル の 動作 を 知る 


$ ip a ロ 


1: く LOOPBACK UP .LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN group default 


1ink/1oopback 00:00:00:00:00:00 brd 00:00:00:00:00:00 
1net 27.0.0.17 引 scope host ]o 


valid_ift forever preferred_ 


1net6 scope host 


1ft forever 


valid_ift forever preferred_lft forever 


2: く BROADC 
1ink/ether 
1net 192.16 

val1d_1ft forever preferred 


Fe80::20c:29ff:fe16:8d3b/64| scope 1fnk 
valid_ift forever preferred_: 


図 35 ネッ トワ ー ク デバ イス の 一 覧 
jp a (ip address show) コマ ンド を 実行 する 。 


図 36 ソケット 

通信 相手 先 や プロ トコ ル 、 相手 先 と の 接続 状態 な ど 
の 情報 を 管理 する 。 カー ネル は 、 そ の 情報 を 使っ て 
ネッ トワ ー ク 通信 を 行う 。 


れ で いる 1I/O ス ケ ジ ュ ー ラ ー は 、「/ 
sys/block/ デ パイ ス フ ァ イル 名 /que 
ue/scheduler」 を 読む と 分 か り ま す 
(p31 の 図 34)。/sys は /proc と 同様 
に 、 カ ー ネ ル 内 部 の 値 に ファ イル シス 
テム の 形 で アク モス 可能 に し た も の 
で す 。3 つ 並ん だ うち 、 角 カッ コ (日) 
で 囲ま れ て いる の が 現在 使わ れ て い 
る I/O ス ケ ジ ュ ー ラ ー で す 。 Ubuntu 
14.04 の 場合 、 デ フォ ルト の 1/0 ス ケ 
ジュ ー ラ ー は 「deadline」 で す 。 


ネッ トワ ー ク の 
動き を 確認 する 


続い で 、 ネ ットワーク 機能 を 見 て 
み ま し ょ う 。 自宅 や 会 社 の LAN、 イ 
ンタ ーネット に PC を 接続 する に は 、 
欠か せな い 機 能 で す 。 


168.29.255 scope global ethO 
1ft forever 
ロロ デバ イィ ス 名 


1ft forever 


5 ss -atn 器 
State 


Recv-0 Send-0 


Loca1 Address:Port 
127.0.0.1:631 


T,MULTICAST,UP.LOWER_UP> mtu 1500 qdisc pfifo_fast state UP qroup default qlen 1000 
29:16:XX:XXlbrd ff:ff:ff:ff:ff:ff 
29.131/24] brd 192. 


口 MAC ア ドレ ス 


Py4 の アド レス / ネ ッ ト マ スク IPvV6 の アド レス / ネ ッ ト マ スク 


Peer Address:Port 


127.0.1.1:53 3 


192.168.29.131:58775 
192.168.29.131:58774 


E 
接続 確立 時 の 状態 


ネッ トワ ー ク デバ イス を 一 覧 する 

自宅 や 会 社 の LAN、 イ ンタ ー ネ 
ッ ト を 使っ て 通信 する に は 、 ネ ッ ト 
ワー クイ ンタ フェ ー ス カー ド (NIC) 
な どの ネッ トワ ー ク デバ イス が 必要 
で す 。PC に 実装 ま た は 接続 され て 
いる ネッ トワ ー ク デバ イス の 一 覧 を 
表示 する に は 「ip al コマ ンド ( ま 
た は 「ip address show」 コマ ンド ) 
を 使い ます ( 図 35)。 

Ubuntu 14.04 で は 、 有 線 LAN 接 
続 の 場合 は 「eth0] か ら 始 まる デバ 
イス 名 が 付き ます 。 ま た 、 無 線 LAN 
接続 の 場合 は 「wlan0| か ら 始 まる 
デバ イス 名 が 付き ます 。 ネ ットワーク 
に つなが っ て いれ ば 、 こ れ ら の デバ 
イス の と ころ に 、MAC ア ドレ ス ( イ 
ー サ ネッ ト )、IPv4 ア ドレ ス と ネッ ト 
マス ク と プロ ー ド キャ スト アド レス 、 
IPvV6 ア ドレ ス な ど が 表示 され ます 。 

「lo] は 特殊 を な ネット ワー ク デ バ 
イス で 「 ロ ー カ ルル ー プ バ パック] と 
呼ば れ ま す 。 自身 の マシ ン (localho 
st) 内 の 通信 に 用 いら れ ま す 。 

な お 、 同 じ よ うに ネッ トワ ー ク デ 
バイ ス の 情報 を 表示 する コマ ンド に 
は 「ifconfig] も あり ます 。 


ニレ レー 1 還 還 還 


91.189.89.240:80 
91.189.89.240:80 


図 37 TCP/IP 通 信 に お ける 接続 確立 時 の 状態 
s$ コ マン ド に 「-atn」 オ プシ ョ ン を 付け て 実行 する と 表示 され る 。 


通信 相手 と の 接続 状況 を 調べ る 

ネッ トワ ー ク を 経由 し て 通信 する 
際 、 相 手先 や プロ トコ ル な どの 情報 
を 管理 する た め の 「 ソ ケッ ト 」 が 生 
成 き れ ま す ( 図 36)。 こ の ソケット 
を 利用 し て 通信 を 開始 する 前 に 、 相 
手先 と の 接続 を 確立 し ます 。 こ の 処 
理 を 「3 ウ ェ イ ハン ド シ ェ イク 」 と 
呼び ます 。3 ウ ェ イ ハン ド シ ェ イク 
中 、 い くつ か の 状態 を 持ち ます 。 こ 
の 状態 も ソケット 内 で 管理 し ます 。 

現在 の TCP/IP 通 信 に お ける 状態 
を 表示 する に は 、「ss]」 コマ ンド に 
「-atm] オプ ショ ン を 付け て 実行 し ま 
す 。 行頭 の 単語 が 現在 の 状態 示し 
て いま す 。 図 37 の 例 で は 、 4 つの ソ 
ケッ ト が 生成 され て いま す 。 「LIST 
EN」 と ある の が 相手 先 と の 接続 待ち 
受け 状態 の も の (サー パー ソフ ト な 
ど ) で す 。 「ESTAB] と ある の が 通 
信 を 確立 し た も の で す 。 

この 例 に は あり ませ ん が 、 ほ か 
に も 「SYN-SENT] (接続 要求 待 
ち )、「CLOSE_WAIT」 (接続 終了 要 
求 待 ち )、 [LAST-ACK| (接続 終了 
要求 承認 待ち ) な どの 状態 が 存在 し 
ます 。 


動作 の 仕組 み を 解き 明か す 
hh、 


デフ ォ ル トゲ ー ト ウェ イ の IP アド レス (ブロ ー ド バン ドル ー タ ー な ど ) 


6ev eth0 proto static LAN に 所 属し な い 相手 先 の 場合 、 デ フォ ルト ゲー トウ エイ を 経由 
dev eth0 proto kernel scope link srcI[192.168.29.131J、metric 1 ペー LAN に 所 属す る 相手 先 に は 直接 送ら れる 


図 38 ルー ティ ング 情報 自身 の IP アド レス 


jp route コ マン ド で 表示 で きる 。 


? fp route ロ 
default via (22.168.29.1 
[92.168.29.0724 


* cat /proc/1nterrupts ロ 


実行 中 の 処理 CPU CPI 
一 : 18042 
割り 込み floppy 
割り 込み 処理 AEP95A0 


再開 (入力 キー の 受け 付け な ど ) 


| 


図 39 割り 込み 


Machtne check except1ons 
IMach1 he po]1 


キー ボー ド な どの ハー ドウ エア だ け で な く 、 ソ フト 
ウエ ェ エア か ら の 割り 込み も 存在 する 。 


5 グ ナ ル 送信 


シ 


図 41 シグ ナル 


カー ネル か ら プ ログ ラム (プロ セス ) に 対し て 、 終了 
や 中 断 、 休 止 な どの 要求 を 通知 する 。 


ルー ティ ング 情報 を 見 る 

通信 相手 先 に デー タ を 届け る た 
め の 経 路 を 作成 する 「 ル ー テ ィ ン 
グ 」 も カー ネル の 重要 な 機能 で す 。 
この ルー ティ ング の 情報 を 表示 する 
に は 、「ip route] コマ ンド を 使い ま 
す ( 図 38)。 一 般 的 に 、 自宅 で ネッ 
トワ ー ク イン タフ ェ ー ス を 1 つ 備 え 
る PC を 使っ て 表示 し た 場合 は 、 所 
在 す る LAN と それ 以外 (default) 
の 2 つの 行 が 表示 され ます 。 

同じ よう に ルー ティ ング 情報 を 表 
示す る コマ ンド に は 、 「route」 コマ 
ンド も あり ます 。 


割り 込み と シグ ナル 
の 動き を 確認 する 
最後 に 、 割り 込み と シグ ナル を 実 
機 で 見 て み ま し ょ う 。 第 1 章 で 紹介 


図 40 割り 込み の 種類 と 回 数 を 調べ る 
/proc/interrupts フ ァイル に 記録 され て いる 。 


表 5 代表 的 な シグ ナル 


SIGTERM プロ セス を 終了 させ る 
SIGHUP 燃 末 が 終了 し た 
SIeINT 

SIGTSTP 

SIGKILL 強制 的 終了 


SIGUSR1、 SIGUSR2 


し た よう に 視 り 込み と シグ ナル は 、 
実行 中 の 処理 に 別 の 処理 を 割り 込 
ませ た いと き に 利用 し ます 。 


割り 込み 発生 状況 を 眺め る 

例え ば キー ボー ド の よう な 入力 デ 
バイ ス か ら は 、 いつ デー タ が 来る か 
が 分 か り ま せん 。 カ ー ネ ル に 、 突如 
デー タ が 送ら れ て きま す 。 だ か ら と 
言っ て 、 カ ー ネ ル が ずっ と デー タ を 
待っ て いる と 、 ほか の 処理 が で き な 
く な っ て し まい ます 、。 

そこ で 一 般 的 な OS と ハー ドウ エ 
ア で は 、CPU が ほか の 処理 を 実行 し 
て いて も デー タ が 来 た と き に は それ 
を 知ら せる 「 割 り 込 み | と いう 仕組 
み が 用 意 さ れ て いま す ( 図 39)。 カ 
ー ネ ル は 、 割り 込み が 来 た と き に だ 
け そ の 処理 を すれ ば いい わけ で す 

「/proc/interrupts」 フ ァイル の 情 
報 を 見 る と 、 割り 込み の 種類 と 、 割 
り 込 み が 発 生 し た 回 数 (CPU ごと) 
が 分 か り ま す ( 図 40)。 


II II 時 4 


ユー ザー 定義 シグ ナル 


【Ctrl] キー と 【C] キー を 同時 に 押す な ど に よる 中 断 
【Ctrl] キー と 【Z] キー を 同時 に 押す な ど に よる 一 時 停止 


シグ ナル を 試す 

カー ネル か ら プ ログ ラム (プロ セ 
ス ) に 対し て 、 終 了 や 中 断 、 休 止 
な どの 要求 を 通知 する 仕組 み が 「 シ 
ダグ ナル 」 です ( 図 41)。 こ の シグ ナ 
ル を 受け 取る と 、 プ ロ セ ス は 受け 取 
っ た シグ ナル の 種類 ご と に 登録 ( 実 
装 ) され て いる 処理 を 実行 し ます 。 

この シグ ナル は 、 ユー ザー が カー 
ネル 経由 で 送る こと も 可能 で す 。 端 
末 か ら シ グ ナ ル を 送る に は 「kil」 コ 
マン ド を 使い ます 。kill は 、 プ ロモ 
ス を 終了 さき せる 用 途 で 使わ れる こと 
が 多い コマ ンド で す 。 実は 、 プ ロモ 
ス に 対し て 「SIGTERM」 と いう 種 
類 の シグ ナル を 送っ て いま す 。 

kil コ マン ド に 「]] オプ ショ ン を 
付け て 実行 する と 、 送信 で きる シグ 
ナル 一 覧 が 表示 され ます 。 代表 的 な 
シグ ナル を 表 5 に 挙げ まし た 。 シ グ 
ナル を 送る と き に は 、 先 頭 の 「SIG」 
を 除い た シグ ナル 名 を 、「kil -HUP 
プロ モス ID」 の よう に 指定 し ます 。 


ーー ニーーーー 
ケ ジ ュ ー ラ ー」「 物 理 メ モリ ー 管 理 ]「 人 や り 近 [時 間 人 2 ロウ 必 人 出力 I 
ム 「 省 電力 仮想 化 」 の 8 ぽ で 「 ト レー サー」 な 
2  - て み よう 。 


人 普段 使っ て いる コマ 
SystemTap ス クリ プ ト な ど を 駆使 し て Linux カー ネル 
的 を 見 まし た 


プロ ー ブ ハ ンド ラテ ー ネ ル 内 部 の 情 境 
ら 、「 タ スク スケ ジ 


メモ リー 


IIIIIIHIHI 


アプ リケーション 


Part2 で は 、 カ 
昌 に 調べ な が 
ラー」 「 物 理 
メモ リー 管理 」「 仮 想 メモ リー 管理 
機構 」「 時 間 管 理 機構 ]「 プ ロッ ク 
入出 力 ]「 フ ァイル シス テム 」 「 省 電 


| 力 | 「 仮 想 化 」 2 の. | し 
寺 
プロ セッ サ 
図 1 SystemTap 取得 する た め に 「SystemTap」 と 
カー ネル 内 部 の 動作 が 分 か る 呼ば れる トレ ー サ ー を 使い ます 。 こ 


su 
yum fnstal] systemtap yum-ut1ls 

yum fnsta1] kernel-deve1-3.10.0-123.e17.x86_64 
yum-config-manager --enable debug 
debuginfo-1nsta1] kernel --nogpgcheck 


図 2 CentOS 7.0 で SystemTap の 利用 環境 を 整え る 手順 
SystemTap は 、 実 行 中 の カー ネル の 情報 を 収集 し た り 、 動 作 を 部 分 的 に 変更 し た り で きる ツー ル で ある 


記述 し た 専用 スク リ 
す ( 図 1)。 そ の スク 
動作 中 の 
ョ ン や カー ネル の 各種 
情報 を 記録 し ます 
SystemTap は 、F CM >Cent 


人 


る こ 


SYSTEM Ye 


図 2 の コマ ンド する と 、Syste 
「 環 境 が 整い ます 。 次 の 
う 環境 を 利用 し ます 
な お 、 調査 で 特に 断り を 入れ て い 
な い 場 合 は 、「http ITCeWaTe. 
temtap/examples/] (写真 


mTap の : 


ペー ジ が ガ 


org 
= h 1) で 公開 され て いる SystemTap 用 
写真 1 サン プル スク リプ ト の 手先 の サン プル スク リプ ト を 用 いま す 


| 


[が 1 久 トレーサ ー で 詳し く 見 る 


1 妥 多 光輝 志 ラ 二 
タス ク 切 り 替 え 状 況 を 詳細 に 確認 する 


ば 良き 

し か し 実際 に は 、 個々 の タス ク に 
性 質 の 人 違い が ある の で 、 
くい きま せん 
を フル に 使っ て 演算 する よう な タス 
ク が ある 一 方 、 ユー ザー の 入力 待ち 
や デパ イス の 入出 力 処理 待ち が メ 
イィ ン で 、 の 4 ス 


ク も あり ます 


タス クス ケ ジ ュ ー ラ ー は 、 プ ロ され 、 他 の タス ク が な か な か 
グラ ム (タス ク ) を 実行 待ち 行列 
(RUN キュ ー) に 登録 し 、 そ の RUN 
キュ ー か ら タ スク を 適 家 選 択 し て 
了 し ます ( 図 1) 

了 よめ られ 
の 1 つ は 、 各 タス ク を 「 公平 
と で す 和 に 下 * 
特定 の タス ク ば か り が 実行 


追加 実行 する と 、 実 
は ほぼ 計算 タス ク ば か り と v 
り ま す 。 結果 的 に これ は 不 公 平 
( 図 2 上 ) 

そこ で Linux で は 、 各 タス ク の 
CPU 使用 時 間 を n (ナノ ) 秒 精度 で 


1 ORUN キ ュー の タス ク 登 録 順 トニ 人 5 和 か に 
も 上 を 身 革 し て 、 ⑥ あ る い は @ ーー 管理 し 、 ど の タス ク も 均等 に CPU を 
使用 で きる よう に する 「CFS] (Co 


4 NN っ この 久生 に 2 スク ま 有人 mpletely Fair Scheduler) と いう 
スク スケ ジュ ー ラ ー を 採用 し て い 
ます 。CFS で は 、 過 去 に CPI 
複数 の タス ク を 同時 に 答 働 で @ タ スク の 実行 が 不 公平 に な っ た り 、 実 "っ た 時 間 が 少な い タ スク に 優先 的 

和 N きま なく な る 行先 度 設定 が 林 能 し な く な っ た りす る LO 時 間 を 割り 当て る と い v 
い 四 出 記 』t て る と い っ 】 シ 


2 シル 7 6 
) 音楽 を 聴い た り 、 何 か の 計算 を 動画 を スム ー ズ に 再生 で き な い ンプ ブル な 考え 方 で 公平 性 を 確保 し 
の 動作 を 思い 切り 2 


| 上 L | し た り し な が 5 ら Web を 閲覧 する 時 
- 概 会 図 が 図 2 下 
ラー の 処理 概要 た 概念 図 が 図 2 下 で す 


| な どの 並行 処理 が で き な く な る キー 入力 の 応答 が 悪く な る 
フロ グラム を る の で ちい 期間 、 ど の CPU コア で 実行 する か を 管理 する の が 、 カ ー ネ ル の タス クス ケ ジ ュ 実際 に は 、 タ スク の 種類 や 優先 度 
ー ラ ー の 役割 で ある じ て 割 り 当 て る CPU 時 間 
っ と 複雑 な 処理 を 

実行 待ち 状態 の 

木 と いう デー 


タス クス ケ 


一 見 、 公 平 に 見 える が 、 プ ログ し て いま す 。 ま た 
ラム A の よう な 入出 力 待ち が 多 8 了 
い プ ログ ラム に は あま り cPU 。 ダスク の 管理 に 、 


タ 構 造 を 使 て 処 効率 化 
OF で の 内 和 叶 和 の ha し て 処理 を 効率 化し 
ュ ョ ーーー なー を よく 使う プロ グラ ム ば か り が 、 て いま す 
半 間 経 洛 CPU で 実行 きれ る こと に な る 
名 プロ グラ ム の CPU で の 実行 時 間 が 一 定 に な る よう に 切り 替え る 方 式 タス ク 切 り 替え 状況 を 確認 


プロ グラ ム A プロ グラ ム B プロ グラ ム A プロ グラ ム B MS) タス クス ケ ジ 
一 定 に な る よう に 、 ブ ログ 、  、、. 

ラム の 天 生 や を 癌 どの よう に タス ク 

整 する と 、 ブ ログ ラム の 性 質 に ュ 、 例え ( EBEST SI 

CPU で の 実行 時 間 関係 なく 公 平 に CPU 実行 時 間 を は 、 例 えば 、|sched_switch.stp] と 
ーーーーーーーーーーーーーーーーー 時 箇 Em 大 り 当 て られ る 、 美 現に 。 いう SystemTap ス クリ プ ト で 調べ 
は や や 複雑 な 処理 が 必要 に な る 


図 2 公平 な スケ ジュ ー リ ング と は 何 か られ ます 。 こ の スク リプ ト を 実行 す 
各 タ スク を 一定 時 間 ずつ 順に 切り 替え て 実行 する 方 式 は 、 一 見 公平 に 見 える が 、 タ スク に よっ て CPU の 使用 。 。、 と っ る に 
率 が 異な る の で 、 実 際 に は 不 公平 な スケ ジュ ー リ ング と な る る と 、 図 3 の よう に 、 タ スク スケ ジ 
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EE 
カ 三 ネル の 動作 を 知る 


: 120:R swapper/1 


15 
swapper/1 1 1411614586334602193 
swapper/1 1 1411614586334617833 
systemd-journal 0 1411614586334708600 
swapper/0 0 1411614586334722499 
systemd-journal 1 1411614586334734864 
1n:fmjourmal 1 1411614586334836827 
swapper/1 1 1411614586334858925 
niimjournal 0 1411614586334865951 
rs:mafn O:Re 1 1411614586334899493 


20: systemd-journal 
120:R systemd-journal 
20: fn:ifmjourna1 
120:R iniimournal 
120:R swapper/1 


: 120:R 一 > 444: 
i 20:R+ 592: 
: 120:R 一 > 592: 
語 320:5 ma2i03 

20:R+ 592: 
: 120:R 一 > 592: 
s 120:5 一 > 0: 
3 120:S 王 > 0 


main 0:Reg 
120:R swapper/0 
120:R swapper/1 


図 3 SystemTap ス クリ プ ト に よる タス ク 切 り 替 え 状況 の 調査 
「sched_switch.stp」 と いう SystemTap ス クリ プ ト を 実行 し た と き の 出力 例 。 短 時 間 に 多 数 の タス ク が 実行 さ 


れ て いる こと が 分 か る 。 


すべ て の プロ セス に 均等 に CPU 時 間 を 割り 当て る 


多数 の ブロ セス を 生成 する サー バー ブロ グラ ム 


| ラロ ea | ラロ zr | プロ ze | プロ wan 


GUI プ ログ ラム 


EzmEcrzl 


各 プ ロ セ ス に 割り 当て られ る の 
は 、10% の CPU 時 間 


プロ セス を グル ー プ 化し て グル ー プ に 均等 に CPU 時 間 


を 割り 当て る 


多数 の ブロ セス を 生成 する サー バー プロ グラ ム 


この グル ー プ の プロ セス に 割り 当て られ る の 


は 、 6.25% の CPU 時 間 
図 4 autogroup ス ケ ジ ュ ー リ ング の 概要 


GUI プ ログ ラム 

9 フロ 2285Rsn 
nmEcrzn 
GUI プ ログ ラム グル ー プ の プロ 


セス に 割り 当て られ る の は 、25% 
の CPU 時 間 


実行 中 の タス ク を 自動 的 に グル ー プ 分 けし て 、 各 グル ー プ に 対し て 均等 に CPU 時 間 を 割り 当て る 機能 。 多 数 
の タス ク を 生成 する よう な タス ク の 影響 を 、 他 の タス ク に 及び に くく する 効果 が ある 。 


ュー ラー が 実行 し た タス ク の 名 前 や 
実行 時 刻 が 表示 され ます 。 こ れ を 見 
れ ば 、 短 時 間 に さ きま ざま な タス ク を 
切り 替え て 実行 し て いる こと が 分 か 
り ま す 。 


すき efterg 


グル ー プ 単位 に CPU を 分 配 

Linux カー ネル は 「autogroup ス 
ケ ジ ュ ー リ ング 」 と 呼ぶ 機能 を 備え 
て いま す 。 こ れ は に 実行 中 の タス ク を 
自動 的 に グル ー プ 分 けし て 、 各 グ ル 


ー プ に 対し て 均等 に CPU 時 間 を 割 
り 当 て る 機能 で す 。 

前 述 の CFS は 公平 な CPU 時間割 
り 当 て を 実現 する タス クス ケ ジ ュ ー 
ラー で す が 、 多数 の プロ グラ ム を 実 
行 する (多数 の 子 プ ブロ モス を 生成 す 
る ) サー バー プロ グラ ム と 、 応 答 性 
が 重要 な GUI ア プリ ケー ショ ン を 
同時 に 稼働 させ て いる よう な 場合 に 
は 、 や や 問題 が あり ます 。 

すべ て の タス ク に 均等 に CPU 時 
間 を 割り 当て る た め 、 サー バー プロ 
グラ ム 配 下 の タ スク が 増え れ ば 増え 
る ほど 、 他 の タス ク (GUI ア プリ 


ケー ショ ン な ど ) に 割り 当て られ る 
CPU 時 間 が 少な く な り ま す ( 図 4 
上 )。GUI ア プリ ケー ショ ン に 割り 
当て られ る CPU 時 間 が 減る と 、 応 
答 性 が 悪化 する な ど し て 体感 性 能 
が 低下 し ます 。 

この 問題 を 解決 する の が 、autog 
rouD ス ケ ジ ュ ー リ ング で す 。 autog 
roup ス ケ ジ ュ ー リ ング で は 、 以 前 
か ら プ ログ ラム の 実行 管理 で 使わ れ 
て いる 「 セ モッ ショ ン 」| と いう 概念 に 
基づい て タス ク 群 を グル ー プ 分 けし 
ます 。 こ の グル ー プ 分 け で は 、 例え 
ば 、 親 子 関係 に ある (呼び 出し 元 と 
呼び 出し 先 の 関係 に ある ) プロ グラ 
ム を 同一 グル ー プ の も の と し て 取り 
扱い ます 。 

グル ー プ 分 けが 完了 し た ら 、 各 グ 
ルー プ に 対し て 均等 に CPU 時 間 を 
割り 当て 、 さ きら に グル ー プ 内 の タス 
ク に その CPU 時 間 を 均等 に 割り 当 
て ます ( 図 4 下 )。 こ うす る こと で 、 
多数 の タス ク が 所 属す る グル ー プ の 
影響 が 、 他 の グループ の タス ク に 及 
びに くく な り ま す 。 

autogroupD ス ケ ジ ュ ー リ ング 機能 
は 、Fedora や Ubuntu な ど 多く の デ 
ィ ス トリ ビュ ーション が 既定 で 有効 
に し て いま す 。 有 効 無効 は 、/proc/ 
syS/kerne/sched_autogrouD_enab 
led と いう ファ イル で 切り 替え られ 
ます 。 同 ファ イル に 「0] を 書き 込 
むと 無効 に 、「1」 を 書き 込む と 有効 
に な り ま す 。 

autogrouD ス ケ ジ ュ ー リ ング 機能 
の 効果 を 体感 する に は 、Linux カー 
ネル を 「$ make 64 | と いっ た 
高い 並列 度 ぐ で ビル ド し な が ら 、GUI 
アプ リケーション を 操作 し て み ま し 
ょ う 。autogroup ス ケ ジ ュ ー リ ング 
無効 時 に は ウイ ンド ウ の 移動 や 再 
描画 が スム ー ズ に で き な い PC で も 、 
有効 に する と スム ー ズ に 処理 で きる 
は ず で す 。 


室 き メモ リ ー の 状況 を 詳細 に 確認 する 


Linux カー ネル の 物理 メモ リー 管 
理 機構 の 主 な 仕事 は 図 1 に 示す 3 つ 
で す 。1 つ 目 は 、 物 理 メ モリ ー を 「 ペ 
ー ジ 」 と いう 小さ な 固定 長 プ ロッ ク 
に 分 割 し て 管理 する こと で す 。 ペ ー 
ジ 単 位 に メモ リー を 管理 する の は 、 
その 方 が メモ リー 領域 を 柔軟 か つ 効 
率 的 に 利用 で きる か ら で す 。 

2 つ 目 は 、 ハ ー ド ウエ アア ー キ テ 
クチ ャ ー の 制限 に 合わ せ て 物理 メモ 
リー を 効率 的 に 管理 で きる よう 、 用 
途 別 に エリ ア 分 け す る こと で す 。32 
ピット モー ド で 稼働 する x86 系 CPU 
は 、 基 本 的 に 4G パイ ト の 物理 メモ 
リー 領域 を 利用 可能 で す 。 この うち 
Linux カー ネル で は 、 先頭 の 16M バ 
イト を 「ZONE_DMA] 領域 、 そ 
れ に 続く 約 1G パ イト の 領域 を 「ZO 


PC が 搭載 し て いる 物理 メモ リー を 「 ペ ー ジ ] 
と いう 小さ な 固定 長 ブ ロッ ク に 分 割 し て 管理 


> 


NE_NORMALI、 そ れ 以 降 の 全 領 域 
を 「ZONE_HIGHMEM」 と 区 分 け 
し ます 。 ZONE_DMA は 、 周 辺 機器 
と の デー タ の や り 取 り の た め に 使用 
する 領域 で す 。 カ ー ネ ル 領域 と し て 
も 利用 で きま す 。 ZONE_NORM AL 
ー ネ ル を 含め た プロ グラ ム や デ 
ー タ を 格納 する 領域 、 ZONE_HIGH 
MEM は 主 に カー ネル 以外 の アプ リ 
ケー ショ ンプ ログ ラム や アプ リ ケ ー 
ショ ン デ ー タ を 格納 する 領域 で す 。 
3 つ 目 の 役割 が 、 カ ー ネ ル 内 部 の 
プロ グラ ム が 物理 メモ リー を 利用 し 
や すく な る よう に 、 メモリー 確保 用 
の ツー ル を 用 意 す る こと で す 。 そ の 
ツー ル に は 、「Buddy シス テム 」 方 
式 を 採用 し た メモ リア ロケ ー タ ー 
や 、 構 造 体 と 呼ば を る デー タ 構 造 の 


の 物理 メモ リー 領域 を エリ ア 分 け 


カー ネル 内 プロ グラ ム が 物理 メモ リー を 利用 し や すく する 仕組 み を 用 意 


搭載 し て いる 物理 メモ リー フル 活用 で き な い 


理 が 失敗 する 
図 1 物理 メモ リー 管理 機構 の 概要 


多量 の 物理 メモ リー を 搭載 し 
て いる の に 、 ア プリ ケー ショ 
ン の デー タ 領 域 が 不足 し て 処 


メモリー の 打上 化 が 発生 す る 


シス テム を 稼働 し 続け る 
次 第 に 利用 可能 な メ 
モリ ー 量 が 減っ て いく 


物理 メモ リー 管理 機構 の 役割 は 主 に 3 つ あ る 。 こ れ ら の 働き に よっ て 、 物 理 メ モリ ー を 効率 的 に 利用 で きる 。 


4K バ イト 長 の 空き 徹 域 の 個数 


DMA 
DMA32 
Normal 


Node 0, zone 
Node 0, zone 
Node 0, zone 


図 2 Buddy シ ステ ム の 空き メモ リー 領域 管理 状況 
/proc/buddyinfo フ ァイル の 内 容 を 表示 し た と ころ 。 各 リス ト に いく つの 空き メモ リー 害 域 が 琶 録 され て いる の か が 分 か る 。 


8K バ イト 長 の 空き 領域 の 個数 
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メモ リー 領域 を 高速 に 確保 で きる 
よう に する 「 ス ラプ アロ ケー ター」 
な ど が あり ます 。Buddy シ ステ ム と 
は 、 空き メモ リー 領域 を 高速 に 割り 
当て 可能 に する 仕組 み で す 。 具体 的 
に は 、1 ペ ー ジ で 構成 され る 空き 領 
域 を 管理 する リス ト 、 連 続 し た 2 ペ 
ー ジ で 構成 され る 空き 領域 を 管理 す 
る リス ト 、 連 続 し た 4 ペー ジ で 構成 
され る 空き 領域 を 管理 する リス ト の 
よう に 、 倍々 の サイ ズ の 空き メモ リ 
ー 領 域 を リス ト で 管理 し ます 。Bu 
ddy シス テム で の 空き メモ リー 領域 
の 管理 状況 は 、「/proc/buddyinfo」 
ファ イル で 調べ られ ます ( 図 2)。 

一 方 、 カー ネル 内 で 使用 する デー 
タ 構造 用 に スラ ブ (フリ ー サ イズ の 
メモ リー 領域 ) を 高速 に 割り 当て る 
仕組 み が ス ラプ アロ ケー ター で す 。 
Ivym.tracepoints.stpD] と いう Syste 
mTap ス クリ プ ブ ト を 使う と 、 ど うい 
っ た プロ グラ ム の 実行 に よっ て 、 ど 
の よう な スラ ブ が 確保 きれ た の か を 
調べ られ ます ( 図 3)。 


sendmail と いう プロ グラ ム の 実行 に よ 
っ て 、 カ ー ネ ル 内 部 で 648 バ イト 長 の ス 
ラブ が 2 個 使用 され た こと が 分 か る 


(前 政 ) 
S1ab_s1ze:256 Count:8 
Process:sendma11 
Sab_size:648 
(以下 、 省 中 


図 3 SystemTap に よる スラ ブ 割 り 当て 状 
況 の 調査 

vm tracepoints.stp] と いう SystemTap ス クリ プ ト 
を 使う と 、 ど うい っ た ブロ グラ ム の 実行 に よっ て 、 
どの よう な スラ ブ が 確保 され た の か を 調べ られ る 。 


Count:2 


0 1 1 3 


) 


4 抜 相 層 定 因 室 


メモ リー 割り 当て の 状況 を 調査 する 


Linux の 仮想 メモ リー 管理 機構 
( 図 1) で は 、 仮 想 メ モリ ー 空 間 と 物 
理 メ モリ ー と の マッ ピン グ に 「 ペ ー 
ジン グ 」| と 呼ば れる 方 式 を 採用 し て 
いま す 。 ペ ー ジ ング で は 、 メ モリ ー 
領域 を 小 き な > 
合 と と ら え 、 ペ 想 
リー 空間 と 物理 メモ リー を 対応 付 
け ま す 。 最近 の CPU の メモ リー 管理 
ユニ ッ ト は 、 ペ ー ジ ング 対応 機能 を 
備え て いま す 。 こ うし た CPU で は 、 
仮想 アド レス と 物理 アド レス を 対応 
付け る た め の ア ドレ ス 変 換 用 テー プ 
ル (ペー ジテ ー プ ブル) を 設定 する こ 
と で 、 自 動 的 な アド レス 変換 を 実現 
で きま す 。 

Linux は 、 各 プロ グラ ム を 別々 の 
仮想 メモ リー 空間 で 稼働 きせ ます 
空間 が 異な れ ば 、 同 じ ア ドレ ス で あ 
っ つて も 、 そ れ が 指し 示す 物理 ペー ジ 
は 異な り ます ( 図 2)。 こ れ は 使用 メ 
モリ ー 領 域 の 重複 が 無い こと を 意味 
し ます 。 こ れ に より 、 他 の プロ グラ 
ム が どの メモ リー 領域 を 使用 し て い 
る か を 考え る こと な く 、 自 由 に プロ 
グラ ム を 作成 で きま す 

また 、 あ えて 同じ 物理 ペー ジ を 複 
数 の 仮想 メモ リー 空間 に 対応 付け る 
こと を し な けれ ば 、 あ る 仮想 メモ リ 
ー 空 間 の プロ グラ ム が 、 別 の 仮想 ス 
モリ ー 空 間 の デー タ に アク セス する 
こと も で きま せん 。 こ れ に よっ て 
プロ グラ ム の デー タ を 他 の プロ グラ 
ム か ら 保 護 で きま す 。 仮 想 メ モリ ー 
空間 は 、 物理 メモ リー と は 独立 し て 
いる の で 、 そ の サイ ズ は 物理 メモ リ 
ー 搭 載 量 の 影響 を 受け ませ ん 。32 ビ 
ッ ト の x86 系 CPU 向け の Linux で 
は 、4G パ イト の 仮想 メモ リー 空間 を 
プロ グラ ム に 割り 当て ます 。 


物理 ページ は 使用 時 に 割り 当て 
仮想 メモ リー 空間 の すべ て に 物理 
ペー ジ を 割り 当て る わけ で は あり ま 
せん 。 そ ん な こと を し た ら 、1 つ の プ 
ログ ラム だ け で 実 メ モリ ー を 4G バ イ 
ト 64 ビット 版 な ら ば 128T バ イト ) 
も 消費 し て し まい ます 。 無駄 を 避け 
る た め 、 物 理 ペ ー ジ は 仮想 メモ リー 
空間 内 の 仮想 ペー ジ に 対し て 実際 に 
入出 力 が 生じ た 際 に 初め て 割り 当て 


仮 起 メ モリ ー 管 理 機能 


ます 。 割り 当て は 、(1) プロ グラ ム 
が 物理 ペー ジ 未 割り 当て の 仮想 ペー 
ジ に アク セス する と 「 ペ ー ジ フォ ル 
ト 」 と いう アク セス 失敗 を 志す エラ 
ー が CPU で 生じ る 、 (2) この エラ ー 
を きっ か け に 物理 ペー ジ の 割り 当て 
処理 を 実施 する 、(3) 仮想 ペー ジヘ 
の アク モス 処理 を 再開 させ る 、 と い 
う 流 れ に な り ま す 。 こ の よう な ペー 
ジ 割 り 当て 方 式 を 上 「 デ マン ド ペ ー ジ 


物理 メモ リー 量 に し ば られ な い 仮想 メモ リー 空 仮想 メモ リー 空間 を 用 途 ご と に 区 分 


間 を 複数 作成 ・ 管 理 する 


物理 メモ リー 空間 


物理 メモ リー に 収まら な い デ ー タ を 一 時 的 に ハー ド デ ィ スク な ど に 退避 する 


mees=sm タ 


けし て 、 保護 する 


仮想 メモ リー 管理 機構 が う 


プロ セス ご と に 独立 し た メモ リー 空 
間 を 用 意 する の が 共 し く な る 


デー タ を 盗聴 され た り 、 プ ログ 

ラム を 勝手 に 改ざん され た り 

する な ど 、 安全 性 が 低下 する 
図 1 仮想 メモ リー 管理 機構 の 概要 


く 動 作 し な いと 、 こん な こと が 起き 


の 物理 メモ リ 
で き な く な る 


下 の メ モリ ー し か 使用 


Y 


大 恒 の メモ リー を 必要 と する 処理 
)) が で き な く な っ た り 、 同 時 稼働 で き 
| 上 | 3 プロ グラ ム の 数 が 泌 っ た りす る 


Linux カ ー ネ ル は 、 仮 想 メ モリ ー 管 理 機 構 に よる 仮想 記憶 方 区 に よっ て 、 プ ログ ラム の メモ リー 領域 保護 や メ 


モリ ー ス ワッ ピン グ な どの 機能 を 実現 し て いる 。 


プロ グラ ム A の 
仮想 メモ リー 空間 


プロ グラ ム A が アク セス で きる の は 、 こ 
の 仮想 メモ リー 空間 内 の メモ リー だ け 


図 2 仮想 メモ リー 空間 は 相互 に 独立 し て いる 
仮想 メモ リー 空間 が 異な れ ば 、 同 じ ア ドレ ス で あっ て も 、 そ れ が 指し 示す 物理 ペー ジ は 異な る 。 その た め 、 相 
互 に 千 水 し な い 。 


物理 メモ リー 空間 


プロ グラ ム B の 
仮想 メモ リー 空間 
FFFFFFFF 


アド レス は 同じ で 
も 、 プ ログ ラム A と 
は 違う 物理 メモ リー 
が 割り 当て られ て い 


プロ グラ ム B が アク セス で きる の は 、 こ 
の 仮想 メモ リー 空間 内 の メモ リー だ け 


ング 」 と 呼び ます 。 


用 途 別 に 区 分 し て 使用 

各 プ ログ ラム で は 、 仮想 メモ リー 
空間 を 図 3 の よう に 、 用途 別に 区 分 
し て 使用 し ます 。 用 途 別 に 分 ける 理 
由 の 1 つ は 、 メ モリ ー の 使い 方 に 合 
わせ て デー タ を 簡単 に 保護 可能 に 
な る か ら で す 。 例 えば 、 プ ログ ラム 
コー ド を (基本 的 に ) 格納 し な い ス 
タッ ク 領 域 で の プロ グラ ム 実 行 を 禁 
止 す る こと で 、 ウイ ルス な どの 不正 
コー ド を 実行 され に くく する 対策 を 
放 じ られ ます 。 

また 、 各 プロ グラ ム の 仮想 メモ リ 
ー 空 間 に は 「 カ ー ネ ル 仮想 空間 ] が 
存在 し ます 。 こ れ は 、 カー ネル が 使 
用 する メモ リー 空間 を プロ グラ ム の 
仮想 メモ リー 空 間 に マ ッ ピ ング し た 
も の で す 。 こ の 領域 は 、 シ ステ ム 
コー ル の 実行 な ど で 動 作 が カー ネル 
モー ド に 切り 替わっ た と き に 使わ れ 
ます 。 

プロ グラ ム が どの よう に 仮想 メモ 
リー 空間 を 使用 し て いる か の 情報 
(これ を メモ リー マッ プ と 呼び ます ) 
は 、「/proc/ プ ロモ ス ID/maps」 フ 
ァイル を 調べ る こと で 分 か り ま す 
( 図 4) 。 


メモ リー スワ ッ ピ ング 

空き 物理 メモ リー が 少な く な っ 
て くる と 、Linux カー ネル は 、 使 用 
中 の ペー ジ か ら 空 き ペ ー ジ に で きる 
も の を 探し て 解放 する 処理 を 始め ま 
す 。 こ れ を ペー ジ 回 収 処理 と 呼び ま 
す 。 ペ ー ジ 回 収 処理 で は キャ ッシュ 
デー タ を 破棄 する な ど し て 、 年 き ペ 
ー ジ を 確保 し ます 。 

それ で も 足り な けれ ば 、 物理 メモ 
リー の デー タ を ハー ド デ ィ スク な ど 
に 用 意 し た 「 ス ワッ プ 領 域 」 に 一 時 
的 に 退避 させ て 空き 物理 ペー ジ を 確 
保 し ます 。 こ の 処理 を 「 ペ ー ジ アウ 


トレ ー サ ー で 詳し く 見 る 


FFFFFFFF 


各 プ ログ ラム の 仮想 アド レス 空間 の 未 尾 に は 、 
カー ネル 仮想 空間 が マッ ピン グ さ れ て いる 。 
ユー ザー ブロ グラ ム か ら は 直接 アク セス で き 
に こない: シス テム コー ル の 実行 な ど で カ ー ネ ル 
モー ド に 切り 替わっ た 際 に 使わ れる 


C0000000 


プロ グラ ム 内 で 使用 する 変数 な ど を 格納 する 
エリ ア 。 格 給 す る デー タ が 増え る と 、 ア ドレ ス 


に 


図 3 仮想 メモ リー 空間 の 用 途 別 の 区 分 
各 プロ グラ ム 
合わ せ て 容易 に デー タ を 保護 で きる よう に な る 。 


仮想 アド レス アク セス 許可 属性 
ファ イル 内 の テー タ 位 置 (ファ イル オフ セッ ト ) - デ バイ ス の メジ ャ ー 番 号 と マイ ナー 番号 


図 4 プロ グラ ム の メモ リー マッ プ の 調査 方 法 


二村 す る エリ ア 
ーー 数 を 格納 する エリ ア 
| プロ グラ ムコ ー ド を 格納 する エリ ア 


| 導 1 ーー 
プロ グラ ム 内 で 動 的 に 確保 する メモ リー 領域 の こ 
と 。 確保 量 が 増え る と 、 ア ドレ ス 上 方 に 成長 する 


、 仮 想 メ モリ ー 空 間 を 用 途 別 に 区 分 し て 使用 する 。 区 分 する こと で 、 メ モリ ー の 使い 方 に 


/bin/cat 

/bin/cat 

/bin/cat 

【hesp] 
sr/11b/1ocale/1ocale-archive 


/1ib/1386-1inuX-gnu/11bc-2.17.so 
/11b/1386-11nux-gmu/11bc-2.17.so 
/11b/1386-11nuX-gnu/11bc-2.17.so 


/proc/ プ ロ セ ス ID/maps フ ァイル の 内 容 を 調べ る こと で 、 こ の よう な メモ リー マッ プ 情 報 を 補 ら れる 。 


ト 」 (ある い は スワ ッ プ アウ ト ) と 
呼び ます 。 退 避 さ せ た デ ー タ が 必要 
に な っ た 場合 に は 、 ス ワッ プ 領 域 
か ら 読 み 出し て 使用 し ます 。 こ の 処 
理 を 「 ペ ー ジ イン 」( あ るい は スワ 
ッ プ イン ) と 呼び ます 。 こ の ペー ジ 
テア ウト プペ ー ジ イン 処 理 を 総称 し て 
「 メ ヌメ モリー スワッピング] と 呼び ま 
す 。 メ モリ ー ス ワッ ピン グ に より 、 
シス テム 全体 で 物理 メモ リー の 容量 
以上 の メモ リー を 使用 で きる よう に 
な り ま す 。 し か し ペー ジア ウト プペ 
ー ジ イン 処理 に は 、 通常 の メモ リー 
テア クモ ス に 比べ て 格段 に 時 間 が 掛か 


る の で 、 こ うし た 処理 が 発生 し 始め 
る と シス テム の 処理 性 能 は 大 峠 に 
低下 し ます 。 

メモ リー 使用 量 が 増え すぎ 、 こ れ 
ら の 処理 に よっ て も 必要 な 空き 物理 
ペー ジ を 確保 で き な い 場合 、Linux カ 
ー ネ ル は 、 稼 働 中 の プロ グラ ム の い 
くつ か を 強制 終了 させ て 空き 物理 ペ 
ー ジ を 確保 し よう と し ます 。 こ の 処 
理 を 「OOM Killer」 (Out of Memo 
ry Killer) と 呼び ます 。OOM Killer 
に より 停止 きれ や すい の は 、 使 用 中 
の 物理 ペー ジ や ペー ジア ウト し て い 
る ペー ジ が 多い プロ モス で す 。 


カニ 二 ネ ル の 動作 を 知る 


時 間 諸 理 


時 刻 情報 の 詳細 を 見 る 


Linux カー ネル の 時 計 機 能 や 時 刻 
情報 を 「 カ ー ネ ル 時 計 ]」 と 呼び ま 
カー ネ 1 必要 な 理由 は 、 
PC の 内 蔵 沙 単 位 の 粗い 時 刻 
情報 し か 保 な いこ と 
で は 、 タ スク スケ 
ジュ ー ラ ー な ど に お いて ミリ 秒 一 ナ 
ノ 秒 単位 の 処理 ます 
対応 で きる 精度 の 時 計 が 
夫 い 最近 の CPU は 
1GHz 以 上 の CPU クロ ッ ク で 稼働 
し て いま すか カ ヵ し た 精度 の 時 
フト ウエ ア 的 に 実現 で きま す 
(1GHz の 場合 クサ イク ル 
1 ナノ 秒 に な り ま す ) 
カー ネル は 時 刻 情報 を [jfes] や 
「xtime」 と 呼ば れる 変数 で 管理 し ま 
す ( 図 1) 
jiffies は 、 一 定 周期 で カウ ント ア 
ッ プ きれ る 変数 で す 。 従 来 の Linux 
"中 ル は 、 定 期 的 に 発生 する タ 
ー 割り 公選 基づい て 稼働 する 
こ な っ て お り 、jiffes は その 割 
み 回 数 を カウ ント する も の で 
タイ マー 割り 込み の 周期 は 設定 
に よっ て 信 い ます が 、 1 一 10 ミ リ 秒 
の 男 囲 の 数 値 が 一 般 に 使わ れ て いま 
期 は 、「HZ」 
ル 定 数 で 指定 し ます 
し か し 、 最近 の カー ネル は 定期 的 


則り 込み で は な く 、 


1 クロ ッ 


と いう カー ネ 


不定 


jiffies の 更新 は 、「 ク ロッ ク 
部 の 時 刻 情報 源 か ら の 情 


ト づ く くも の に な り ます 
xtime は 、1970 年 1 月 1 日 0 時 0 分 


0 秒 か ら の 経過 時 間 を 秒 単位 メ ナ ノ 
秒 単位 で 保持 する 変数 で す 。timek 
eeper と いう 名 称 の デー タ 構 造 の 要 
と し て 用 意 き れ て お 
り 、[xtime_sec」 メン バー が 秒 単 
位 、「xtiime_nsec」 メン パー が ナノ 
秒 単位 の 情報 を 持ち ます 。xtime の 
情報 は 、 従 来 は jjffies に 基 づ 
新 さ れ て いま し た が 、 現 在 で は jifi 
es と 同様 に クロ ッ ク ソ ー ス か ら の 情 
て 更新 され ます 


time_sec の 内 容 


クロ ッ ク ソ ー ス の 切り 替え 法 
クロ ッ ク ソ ー ス に は 、CPU 内 部 


時 刻 管 理 機能 


カー ネル 内 の さま ざま な 処理 の 基準 と な 
る 時 刻 情報 を 保持 ・ 管 理 する 


国語 主 TH か ら の 反 過 時 間 

を 保持 する 変数 

計量 証人 因 で カウ ン ト ア ッ プ され 
る 変数 


時 刻 管理 機構 まく 動作 し な いと 


WW PC の 時 刻 表示 が 不正 確 


J な も の に な る 


音楽 や 動画 再生 に 揺 ら 
ぎ が 生じ て 、 音質 や 映像 上 
(品質 が 低下 する \N 


時 間 管理 機 橋 の 処理 概要 


カー ネル 時 計 と 呼ば れる 時 刻 情 報 の 管理 や 、 時 刻 情報 芝 と 


どの 処理 を 担当 する 


の カウ ンタ ー で ある 「TSC」 (Time 
- 般 に 使わ れ ま 
す ヵ の ほか に 、 |HPET」 (High 
pn Event Timer) や [PIT] 
(Periodic Interrupt Timer) な どの 
タイ マー デパ イス を 使用 可能 で す 
現在 選択 る ッ ク 


らち る の か は 、/sys/devic 


Stamp Counter) が 


> 


em/clocksource/clocksour 
ce0/current_clocksource フ ァイル 
の 内 容 を 調べ れ ば 分 か り ま す 。 ま た 、 
う ) フ ァイル に クロ ッ ク ソ ー ス を 示 

す 文字 9 を 書き 込 


利用 本 クロ 
ィ レ クト リー に ある 「available_clo 
cksource」 フ ァイル で 調べ られ ます 


ッ ク ソ ー ス は 、 同 デ 


⑥PC が 持つ 時 刻 情報 源 の どれ を 使用 する か 
選択 する 


カー ネル 内 部 の さま ざま な 
処理 の タイ ミン グ が 混乱 す 
る 。 例え ば 、 タ スク スケ ジ 


6 ュー リン グ が うま く 働 か な 


く な る 
ご 


な る ハー ドウ エア の 選択 、 そ こ か ら の 情報 取 科 な 


還 次 の 内 容 を 持つ ファ イル を 「jiffies.stp」 な どの 名 前 で 保存 
probe kernel.function("ktime_get").return { 
printf("d1ffies-%u xt1me_sec-%UWn"。 311fffes,。 $tK->xt1me_sec): 


ex1t(): 
了 


還 実 行 例 Y 


ま stap jifffes.stp ロ 


jiffies=4656490949 xtime_sec=1387268415 


国 2 jifies と xtime の 内 容 を 表示 する SystemTap ス クリ プ ト 


xtime 情 報 と し て は 秒 単位 の も の を 表示 する , 


キヤ ャ ウツ シュ の 同期 処理 を 見 る 


固定 長 デ ー タ (プロ ッ ク ) を 単位 
に 入出 力 す る 、 ハ ー ド ディ スク の よ 
うな 記録 装置 に 対す る 入出 力 処理 
を 担当 する の が プロ ッ ク 入 出力 屋 
で す ( 図 1)。 役目 は 、(1) 記録 装置 
の 店 い を 吸収 し 、 プ ロッ ク 単 位 で デ 
ー タ を 入出 力 可能 に する 、 (2) キャ 
ッシュ や 1I/O ス ケ ジ ュ ー ラ ー な どの 
仕組 み で デー タ の 入出 力 性 能 を 向 
上 させ る 、 の 主 に 2 つ で す 。 

(1) に より 、 記 録 装 置 が ハバード デ 
ィ ス ク で も USB メ モリ ー で あっ て 
も 、 同 じ 方 法 で デー タ を 入出 力 で き 
る よう に な り ま す 。 装置 周 有 の 処理 
は 、 主 に デバ イス ドラ イ バ 側 が 担当 
し ます 。 

キャ ッシュ は 、 主 メ モリ ー を 使っ 
て 入出 力 処理 を 高速 化す る 仕組 み 
で す 。 記録 装置 上 の デー タ を 主 メ モ 
リー 上 に コピ ー レ で お き (これ を キ 
ャ ッシュ と 呼び ます )、 キ ャ ッシュ 
し た デー タ に 対し て 入出 力 処理 を 
実施 する こと で 、 記録 装置 へ の アク 
モス 頻度 を 減ら し て 高速 化 を 実現 
し ます 。 

主 メ モリ ー 上 の キャ ッシュ デー タ 

を 書き 換え た 場合 は 、 記 録 装 置 上 の 
デー タ と 不 整 合 が 生じ な いよ うに 、 
その 書き 換え た デー タ を 記録 装置 に 
書き 込ん で 両者 を 同期 きせ な けれ ば ぼ 
な り ま せん 。 

この 同期 処理 は 、 カ ー ネ ル に よっ 
て 定期 的 に 実行 され ます が 、 ハ ー ド 
ディ スク を アン マウ ント する 場合 な 
ど に は 、 強制 的 に 同期 させ る 必要 が 
あり ます 。 強制 的 な キャ ッシュ の 同 
期 を 「 キ ャ ッシュ の フラ ッシュ 」 と 
呼び ます 。 

キャ ッシュ の フラ ッシュ が 指示 さ 
れる と 、 仮 想 メモ リー 管理 機構 が 


キャ ッシュ デー タ を デバ イス に 書き 
出す 処理 を し ます 。 ま た プ ブロック 入 
出力 層 は 、 デバ イス に 対し て キャ ッ 
シュ の 同期 を 指示 する 「blkdev_iss 
ue_flush] と いう 関数 を 実行 し ます 。 
これ に より 、 デパ イス 内 の キャ ッ シ 
ュ デ ー タ も フラ ッシュ され 、 変更 し 
た デー タ を 確実 に 記録 で きま す 。 同 
関数 の 実行 状況 は 、 図 2 の よう な Sy 
stemTap ス クリ プ ト を 実行 する こ 
と で 調べ られ ます 。 

1/O ひ スケジュー ラー は 、 入 出力 す 
る プロ ッ ク デ ー タ を 並べ 替え る こと 
で 入出 力 処理 を 高速 化す る も の で 
す 。 例 えば 、A、B、 C の 順 で 入出 


⑩ 記 録 装置 の 違い を 吸収 し 、 ブ ロ キャ ッシュ や |/O 〇 スケジュ ー ラ ー な どの 仕 租 み で デー 
2 タ の 入出 力 性 能 を 向上 させ る 
る よう に する 


プロ ッ ク 入 出力 層 が うま く 動 作 し な い . 


記録 装置 ご と に デー タ の アク 
セス 手順 を 変え る 必要 が あり 、 
デー タ へ の アク セス が 面倒 に 


な る 


図 1 ブロ ッ ク 入 出力 層 の 概要 


力 要 求 が 到着 し た と し ます 。 こ の と 
き 、 和 AA と C が 記録 装置 の 隣接 し た 箇 
所 に 対す る 処理 要求 で あっ た 場合 、 
入出 力 順序 を 、A、C、B と 入れ 替 
えた 方 が 、 一 般 的 に は 処理 を 高速 化 
で きま す 

Partl で 紹介 し た よう に Linux で 
は 、 プ ロッ ク デ ー タ の 並べ 夫 え 方 式 
が 違う 、「cfq」 「deadline」 「noop」 
と いう 3 種類 の I/O ひ スケ ジュ ー ラ ー 
を 利用 で きま す 。 現在 使用 し て い 
る 1/0 ス ケ ジ ュ ー ラ ー の 確認 と 変 
更 は 、「/sys/block/ デ バイ ス 名 /q 
ueue/scheduler] ファ イル か ら 行え 
ます 。 


記録 装置 の 特性 に 合わ せ て |/O ス ケ 
ジュ ー ラ ー が 処理 順序 を 入れ 替え 


デー タ の 入出 力 速度 が 
遅く な る 


ブロ ッ ク 入 出力 層 の 役割 は 、 記 録 装置 の 違い を 吸収 し で て ブロック 単 位 で デー タ を 入出 力 で きる よう に する こ 
と と 、 キ ャ ッシュ や !/O ス ケ ジ ュ ー ラ ー な どの 仕組 み で デー タ の 入出 力 性 能 を 向上 させ る こと の 主 に 2 つ 。 


一 以 下 の 内 容 の ファ イル を 「bio_flush.stp] な どの 名 前 で 保存 
probe kerne1.function("blkdev_issue_flush"){ 
printf("blkdev_issue_flush executed.\n"): 


罰 実 行 例 ャ 

# stap ./bio_flush.stp ロ 
bl1kdev_ssue_flush executed. 
blkdev_issue_flush executed. 


Sync コ マン ド や umount コ マン ド の 実行 時 に 
この 表示 が 出る こと を 確認 


図 2 デバ イス へ の キャ ッシュ フラ ッシュ 指示 を 確認 する SystemTap ス クリ プ ト 
デバ イス に 対し て キャ ッシュ の 同期 を 指示 する 「blkdev_issue_flush] と いう 関数 の 実行 状況 を 確認 する スク 


リプ ト 。 こ の スク リプ ト を 稼働 させ な が ら 、umount コ マン ド や sync コ マン ド を 実行 し て みよ う 。 


カ 三 ネル の 動作 を 知る 
6 ウミ の 52 


ジャ ー ナ ル デ ー 


ァイル シス テム 820 アァ 
フリ テーション を 置 に デー タ 
が どの よう に 記録 さき れ て いる か を 意 
記録 装置 の 種 


この ファ イル シス テム で は 、 フ ァ 
イル の 管理 性 向上 や 安全 性 確保 の た 
め の 機 能 も 提供 し ます 。 管理 性 向上 
の た め の 機 能 の 例 が 、 フ ァイル に 名 
前 を 付け られ る よう に する 機能 や 、 
「 デ ィ レ クト リー」 と いう ファ イル や 
他 の ディ レク トリ ー3# 
想 的 な 容器 を 利用 
こと で す RY フ 
ァイル の 作成 時 刻 や 所 有 者 な ど を 記 
録 し た メタ デー タ と 呼ば れる 管理 用 
の 情報 が 付加 され ます 

安全 性 を 確保 する 機能 の 例 と し 


っ だ 名 能 に な り ま 

す 。Linux の ファ イル シ 

- 般 に 「 フ ァイル の 所 有 者 」「 フ ァ 

イィ ル の 所 有 グ ルー プ 」「 そ の 他 の ユー 
ザー」 の 3 拓 の ュー ザー 竹 別 ご 
に 「 読 み 出し の 許可 (r)」「 書 き 込 


ステ ム で は 


み の 許 可 (W) 
の 3 種類 の ア 
で きま す 


「 実 行 の 許可 0」 
クセ モス 許 可 属性 を 


を 設定 


ext4 が 標準 的 に 使わ れる 
2014 年 9 月 下旬 時 点 で は 、 
ディ スト リピ ビ ュー 
「ext4」 と いう ファ 
標準 採用 し て いま す 。ext4 の 重要 
な 機能 の ー つ が 、 デー タ 更 新 処 理 の 


Linux 
ョ ン の 多く が 
イル シス テム を 


夕 を 調査 する 


失敗 に よる ファ イル や フ 

テム の 破損 を 防止 する 「 ジ 

ング 」 機能 で す 。 こ の 機能 で は 、 デ 
ー タ 更新 処理 に に て 、 デ ー タ の 
変更 内 容 を まとめ た ー ナ ル 」 


B 録 する と 、 ジャ 
ー ナ ル デ ー タ が 増え て し まい ファ イ 
ル 入 出力 性 能 が 低下 する か ら で す 
安全 性 は 、 フ ァイル の 
更新 内 容 も 含め て ジャ ー ナ ル に 記 
と 呼ば える ログ デー タ を 記録 装置 に 。 録 する モー ド を 使用 する と よい で し 
の ます ー ナ ル の 記録 後 に ょ う 。 同 モ ー ド を 利用 する に は 「o 
を 更新 し 、 そ れ 功 す data= Oo リン プシ ョ ン を 
ー ナ ル を 削除 し ます 。 フ ァイル て 、 フ ァ 
イル シス テム の 更新 処理 が 停 ます 
ど に よっ て 中 断 ・ 失 敗 1 
に は 、 ジャ ー ナ ル の 情報 を 
し い 更新 処理 を 再開 し ます 
た だ し ext4 の 既定 設定 で は 、 フ 
ァイル の メタ デー タ の 更新 内 容 し か 
ジャ ー ナ 記録 し な い 動作 モー ド ジャ ー ナ ル に ファ イ 
で いま す 。 フ ァイル の 更新 内 が 含ま れ て いる こと が 分 か り ま す - 


に |logdump] 


ト 上 の オ プシ 


イル シス テ 


⑩ 記 録 装置 上 の デー タ を 「 フ ァ イ 
ル ] と いう 扱い や すい イン タフ ェ 
ー ス を 通じ て 操作 可能 に する 


⑨ フ ァイル を 安全 に 読み 書き で きる 仕組 み を 提供 


パー ミッ ショ ン TWXT-X「 一 
ファ イル 変更 前 


変更 内 容 を 
ジャ ー ナ リン グ 居 作詞 し た [ジャーナル ログ 」 を 書く 


停電 等 に より 変更 処理 が 中 断 
され た 場合 は 、 ジ ャ ー ナ ル ロ 
グ を 使っ て 破損 を 防ぐ 


テム が うま く 動 作 し な いと 、 


デー タ の 持ち 運び や 、 
アプ リケーション 間 で 
の 共用 が 難し く な る 
ファ イル シス テム の 役割 
イル と いう デー タ の 仮 超 的 な 者 を 作り 出し 、 そ の 寺 を 通じ て 記録 装置 上 の デー タ に アク セス で きる よう に 
『 フ ァイル シス テム の 役割 で あ も る 。 また 、 フ ァイル の 管理 性 向上 や 安全 性 確保 の た め の 機 能 も 提供 する 。 


ファ イル が 破損 し や す 
く な り 、 重 要 な デー タ 
が 失わ れ て し まう 


debugfs: ac ロ 
(中 略 ) 
FS block 33282 1ogged at journal block 4 (f1ags 0xa) 
0000: 2e383163 5f363878 692e3436 7d0a676d c18.x86_64.1mg.} 
0010: 6e656d0a 746e6575 27207972 6f646546 .menuentry "Fedo 
0020: 47206172 4c2f554e 78756e69 6977202c ra GNU/Linux, wi 
0030: 74206874 746f6f62 372e3120 6120302e th tboot 1.7.0 a 
0040: 4c20646e 78756e69 382e3320 322d342e nd Linux 3.8.4-2 
(以下 、 省 略 ) 


図 2 debugfs コ マン ド に よる ext4 の ジャ ー ナ ル デ ー タ 調査 
debugfs コ マン ド の logdump サ ブ コ マン ド を 使え ば ジャ ー ナ ル の 内 容 を 閲覧 で きる 。 図 は 、[-o data=joumal 
オプ ショ ン を 指定 し て マウ ント し た ext4 フ ァイル シス テム の ジャ ー ナ ル を 表示 させ た 例 で ある , 


1ogdump 


Linux カー ネル は 、 省 電力 化 の た 
め の 仕組 み を 備え て いま す 。 PC を 構 
成す る 部 品 の うち 、 消費 電力 が 大 き 


な も の の 代表 が CPU で す 。Linux カ 
ー ネ ル は 、 シ ステ ム の 処理 状況 に 応 
と て 、(1) CPU の 動作 モー ド を 省 電 


カモ ー ド に 切り 替え る 、 (2) CPU の 
動作 クロ ッ ク を 調整 する 、(3) CPU 
を 停止 きせ る サス ペン ド や ハイ パネ 
ン な どの シス テム 休止 モー ド 


ー シ 
に 移行 する 、 と いっ た 省 電力 処理 を 
実施 し ます 


欠か せな い の が 、CPU の 動 
で ある 「C ス テー ト 」 を より 電 
力 な 状態 に 移行 きせ る こと で す ( 図 
1)。 実行 する タス ク が 無い 待ち 状態 
(アイ ドル 状態 ) に な る と 、 カ ー ネ 
ル は HLT 命 令 を 実行 し て 、CPU を 
通常 の 稼働 モー ちる CO ステ ー 
ト か ら C1 ス テー ト に 移行 させ ます 
C1 ス テー ト で は CPI へ の クロ 
ッ タ 供給 が 停止 きれ 、 消 費 電力 が 下 
が り ま す 。 き さら に アイ ドル 状 間 が 続 


く と 、 カ ー ネ ル は C2 ス テー ト や C3 
ステ ー ト な どの 、 より 深 い 休止 モー 
ド に CPU を 移行 きせ ます 


HLT 例 令 


C1 ス テー ト 


で gu 


(CPU コア へ の ク 
ロッ ク 供給 停止 ) 


の 程度 の 時 
C ス テー ト に し た か を 調べ られ ます 
(写真 1)。PowerTop は 、Fedora や 
Ubuntu で は 「powertop] と いう パ 

ッ ケ ー ジ を イン スト ー ル する こと で 
利用 可能 に な り ま す 。 イ ンス トー ル 
後 、powertop コマ ンド を 管理 者 権 
限 で 実行 し ます 


CPU の 動作 クロ ッ ク を 調整 

Linux カー ネル は 、CPU の 動作 ク 
ロッ ク を 制御 する 「CPUfreq] と い 
う 機 能 を 備え て いま す 。 CPUfreq の 
動作 は 、 ク ロッ ク 制 御 ポ リ シ ー (gov 
ernor) に よっ て 変わ り ま す 。 通常 は 
シス テム 負荷 に 合わ せ て クロ ッ ク 周 
波数 を 上 下さ せる 「ondemand] と 
いう ポリ シー が 採用 され て いま す 
他 の ポリ シー に は 、 常 に 最高 クロ ッ 
波数 に する 「periormance」、 常 
に 最低 クロ ッ ク 周 波数 に する 「pow 
ersave」、ondemand と 同じ く 負 人 荷 に 
合わ せ た 調 整 を する が 周波 数 変更 
速度 「conservative」、 周 波数 
調整 を 別 プ ログ ラム に 委託 する 「us 


割り 込み 信号 を 受 
C2 一 C6 ス テー ト の 
(パス や クロ ッ ク 生 | ける を どす る と CO 
回 な どき 全員 証 | 


省 電 力 


電 力 機構 が うま く 動作 し な いと 、 


短く な る 
図 1 省 電 力 機構 の 概要 


昌 ノー ト PC の バッ テリ ー 双 動 時 間 が 


こん な こと が 起き る 


間 (3 
PC の 発熱 が 多く な る 


Linux カ ー ネ ル は 、 シ ステ ム の 処理 状況 に 応じ て CPU の 動作 モー ド を 省 電 カモ ー ド に 切り 替え る な どの 人 省 電 


力 機能 を 備え て いる 。 


[た] 弟 有 ト レー サー で 詳し く 見 る 


ersDace」 が あり ます 。 最も 名 電力 指 
向 の ポリ シー は 、 既定 の ondemand 
で す 。 現在 採用 きれ て いる CPUfr 
eq の ポリ シー の 確認 や 変更 に は 、/ 
em/cpu/cDu0/cp 


ing_governor と いう ファ 


ハイ バネ ーション 処理 の 概要 

長 時 間 PC の 前 を 離れ る 場合 な ど 
に 便利 な 節電 機能 に 「 ハ イ パ ネ 
ョ ン 」| が あり ます 。 ハ イ パ ネ 
ン は 、CPU の 実行 状態 や 主 メ モリ 


シ 


ショ 


で す 
ハイ バネ ーション 機能 で は 、 主 メ 
モリ ー の デー タ を スワ ッ プ 区 画 に 退 
遊 させ ます 。 退避 デ ー タ ら す た 
め 、 ハ イ バ パネ ーション 処理 
て 、 キ ャ ッシュ を すべ て 記録 装置 に 
ッシュ し ます 。 き さらに 、 既に 使 
に メモ リー を 解放 する 
S/DoWer/image_si 
定 き れ て いる サイ ズ 以 下 
、 ヽ で きる だ け メ モリ ー イ 


ピュ 


われ な く な っ 


は ハイ パー ネ 
て 、 元 の 動作 状 】 


ここ 
写真 1 PowerTop に よる C ス テー ト 利 用 
状況 の 表示 

アイ ドル 処理 に お いて 、 CPU を どの 程度 の 時 間 、 ど 
の C ス テー ト に し た か を 調べ られ る 。 


カニ ネル の 動作 を 知る 
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ホス ト 処 理 と ゲス ト 処 理 を 見 る 


仮想 化 ツ フト を 使え ば 
に 仮想 的 な PC 環境 を 作り 出し て 、 
その 仮想 PC 環境 上 で Windows な ど 
の きま ざま な OS を 稼働 きせ る 
が で きま す 。Linux 上 で 利用 で きる 
仮想 化 ツ フト は 複数 あり ます が 、 広 
く 使わ れる も の の 1 つ に カー ネル モ 
ジュ ー ル と 【 装 さ れ た 「KVMI] 
(KerneLbased Virtual Machine) が 
あり ます 

KVM は 、 仮 想 化 ツ ソフ ト の 一 部 機 
能 し か 持っ て いな いた め 、 一 般 に 
「QEMU」 と いう ソフ トウ エア と 佐 
用 し ます 。QEMU は CPU を エミ ュ 
レー ショ ン す る の で 、 x86 系 の CPU 

) SAS 


の 半面 、QEMU 上 で 稼働 する 
OS の プロ グラ ム を ソフ トウ エア 的 
に 解釈 ・ 実 行 する の で 、 実 行 可 度 が 
遅い と いう 欠点 が あり ます 。KVM 
を 使え ば 、QEMU 上 で 動作 する ゲス 
ト OS の プロ グラ ム を 直接 物理 CPU 
で 稼働 で きる よう に な り 、 ゲ スト OS 
の 実行 が 高速 化 き れ ま す ( 図 1) 

KVM は 、 仮想 化 支援 機構 
を 持つ CPU で し か 利用 で きま せん 
CPU の 仮想 化 支 援 機構 は 、 米 Intel 
社 の CPU で は 「Intel VTx」、 米 Ad 
vanced Micro Devices (AMD) 社 
の CPU で は 「AMD SVM (また 
AMD-V) 」 と いう 名 称 で 呼ば れ て い 
ます 
仮想 化 支援 機構 を 備え る CPU で 
KVM を 有効 に 
intell ある い は 「kvm-amd」 と いう 
カー ネル モジ ュー ル を 次 の よう に 読 
み 込 ん で か ら 、QEMU 
kvm」 オ プシ ョ ン 付 き 


「kvm- 


る に は 、 


「-enable- 


了 し ます 


$ sudo modprobe kvm-1ntel 器 


KVM の 処理 状況 は 
「kvm_si 


、 例 えば 
vice_time.stD] と いう 
stemTap ス クリ プ ト で 調べ られ ま 
す 。 ゲ スト OS の プロ グラ ム の 実行 
が ホス ト OS へ の 切り 奉 

け の 時 間 中 断 し た か を 、 ホ スト / ゲ 
スト の 動作 モー ド 切 り 替 え 理由 ご と 
に 表示 し ます ( 図 2) 


ーー 


ー ネ ル に は 「virtio」 と 呼ば れる 


アプ リケーション 
ゲス ト OS 


仮想 化 ソ フト 向け の 
デバ イス ドラ イ バ 


仮想 環境 向け の デバ イス ドラ 
群 が 用意 き され て いま す 。 例 えば 、 
ロッ ク 入 出力 用 ドラ 
blkl、 ネ ットワーク ドラ イ バ の [virtio- 
netl」l、 コ ン ソ ー ル ドラ イ バ の 「virtio- 
当たり ます 
これ ら の ドラ イ バ は 、Linux を ゲ 
スト OX 使用 する 場合 に 利用 
で きま す 。virtio ドラ イ バ は 、 仮 想 
化 > ウフ ト に よ ュ レ ー 
ン 処 理 を バイ バス し て 、 ホ スト 
OS の ドラ イ バ に 接続 する 機能 を 提 
供し ます ョ ン 得 が 
省略 され て 処理 高 加 


イ バ の [virtio- 


console」 が それ に 


る デパ イス エミ 


これ ら の デバ イス ドラ イ バ や 、 
CPU の 仮想 化 支援 機構 を 利用 する 
こと で 、 処 理性 能 低下 を 抑え る 


KVM が うま く 動 作 し な いと 、 こん な こと か 起 


CPU の 仮想 化 支援 機能 を 利用 で き な く な る  Q 仮 想 化 ソ フト 向け の デバ イス ドラ イ バ 


ゲス ト OS や アプ リ ケ ー シ 
ョ ン の 実行 性 能 が 大 幅 に 
低下 する 


KVM に よる 仮想 化 
支援 機構 を 使っ 
J』 け デパ イス ドラ イ バ な ど を 備え る 


stap kvm_service_time.stp -c 


を 利用 で き な く な る 


ステ ム 起 動 時 間 が 遅く な る 


間 上 速度 が 遅く な る 


て ゲス ト OS を 高速 実行 する 仕組 みや 、 デ パイ スエ ミュ レー ショ ン を 回 選 で きる 


"sleep 1" 器 


AMD reasons are SVM_EXIT_* fn 1inux/arch/x86/1nclude/asm/svm.h 


reason( he: 


Count sum(us) min(us) avg(us) maX(us) 


626888 127025 313444 


ゲス トモ ー ド か ら ホ スト モー ド へ の 移行 の きっ か け に な っ た 理由 


(上 は HLT 命 令 の 発行 、 下 は ペー ジ 


ジフ レー ム の 参照 ) 
図 2 SystemTap に よる KVM の 動作 状況 調査 


ゲスト OS の プロ グラ ム の 実行 が ホス ト OS へ の 切り 替え で どれ だ け の 時 間 中 断 し た か を 、 ホ スト ゲス ト の 


動作 モー ド 切 り 替 え 理由 ご と 


る 「kvm_service_tiIme.stp] と いう スク リプ ト を 実行 し た 例 


注目 の 新 後 能 や 
次 世代 機能 を 知る 


カー ネル は 常に 進化 し て いま す 。 
比較 的 最近 実装 され た 新 機能 、 面 白い 新 機能 、 注目 し て お きた い 次 世代 機能 を 紹介 し ます 。 


[ 周 還 ] 最新 カー ネル の 技術 を 見 る % 
[ 村 肢 ] こん な に 面白 い 技術 が ある ss 
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バー ジョ 


Ubuntu 14.04 LTS は 、 


ン 3.13 系 列 の カー ネル を 採用 し て い 
ます 。 こ の 系 列 の カー ネル は 2014 年 


1 月 19 日 に リリ ー ス され た も の で 、 
決し て 古く あり ませ ん 。 し か し カー 
ネル の 進化 は 早く 、 その 後半 年 の 間 
に 2 回 バー ジョ ン ア ッ プ し まし た 
同年 3 月 30 日 に リリ ー ス きれ た 23 
と 、6 月 8 日 に リリ ー ス され 
で す 。 8 月 3 日 に は カー ネル 3.16 が 
リリ ー ス され て で いま す 

Ubuntu 14.04 LTS に パー ジョ ン 
3.15 系 列 の カー ネル を イン スト ー ル 
し 、 半 年 間 に 成 し 遂げ た 8 つの 進化 
を 見 て いき ます 。 取り 上 げ る の は 新 
機能 や 改良 の 一 部 で す が 、 そ れ で も 
さま ざま な 違い が ある こと か ら 、 開 発 
力 の 凄 さ が 分 か る と 思い ます 。 な お 、 
最新 の カー ネル 3.16 の 新 機能 や 改良 
は p57 の 別掲 記事 「 カー ネル 3.16 の 


画 ビ ルド と 設定 に 必要 な バッ ケー ジ の 導入 


注目 の 新 人 や 世代 を 0 る 


最新 の Ubuntu 14.04 LTS に 採用 
され て いる カー ネル 3.1 系 列 に 対 
し て 、 現在 の 安定 版 最新 カー ネル は 
バー ジョ ン 89.16 系 列 で す 。 カ ー ネ 
ル 3.13 が リリ ー ス され て か ら 約 10 
力 月 で 3 回 メジ ャ ー バ パー ジョ ン が 上 
が り ま し た 。 Part1 で は 、3.14 と 
8.15 に お ける 8 つの 進化 と 、 カ ー ネ 
ル 3.16 の 新 機能 を 紹介 し ます 。 


新 機能 」 で 紹介 し て いま す 


カー ネル の ビル ド と 導入 方 法 

カー ネル の ビル ド と イン スト ー ル 
く 紹 介し 
そちら を ご 覧 


に つい て は 、 
ます 。 細 か い 』 
くだ きい 

まず は 第 5 章 を 参照 し て カー ネル 
の ソー ス ア ー カ イブ ファ イル を 入手 
し ます 5 の カー ネ 
ル で あれ ば 「linux-3.15: 
いっ た ファ イル 名 で す 
ー ス アー カイ プ フ ァ イ ル が ある ディ 
レク トリ ー で 図 1 の コマ ンド を 実行 
し 、 カ ー ネ ル を ビル ド し て イン スト 
ー ル し ます 。 途中 、「make menuco 
nfig ロ | を 実行 し 
画面 で 、 ビ ルド 設定 の 追加 や 変 
可能 で す 

以下 で 紹介 する 新 機能 や 改良 の 


バー ジョ 


て 表示 され る 設定 


と 更 が 


$ sudo apt-get update 口 


$ sudo apt-get fnsta1] bui1d-essentfal 11bncurses5-dev 器 


一 ビ ルド と イン スト ー ル の 手順 (カー ネル 3.15.5 の 例 ) 
$ tar Jxvf 11nux-3.15.5.tar.xz 品 


$ cd linux-3.15.5 
B cp /boot/conf1g- uname -r' 


E_make menuconffg 回 


-conffg 


現在 利用 中 の カー ネル ビル ド 
設定 を コピ ー す る コマ ンド 


大 部 分 は 、Ubuntu 14.04 し MR 
準 カ ー ネ ル 設定 と 同じ ビル ド 設 定 の 
まま で 利用 ・ 調 査 で きま す pe 
め 追 加 設定 を 施す 必要 は あり ませ 
ん 。 ビ ルド 設定 画面 で 何 も 変 更 せ ず 
に 設定 を 保存 し て 終了 する か 、 「ma 
ke menuconiig | の 代わ り に [ma 
ke olddefconiig | を 実行 し ます 
後述 する 「kASLR| (Kernel Ad 
tion) 機能 


dress Space Randomiz 


を 使う に は 、 ビ ルド 設定 を 追加 で 実 
施し ます 。 な お 、 こ の 設定 で は kAS 


LR 機能 と 競合 する ハイ パネ ーション 
機能 を 無効 化し て いる の で 、 通 常 は 
使用 し な い 方 が よい で し ょ う 

カー ネル の ビル ド と イン スト ー ル 作 
業 を 終え た ら 、 シ ステ ム を 再起 動 する 
と 導入 し た カー ネル で ブー ト で きる よ 


うに な り ま す 。 早速 、 新 旧 の カー ネル 
を 切り 替え な が ら 六 い を 見 て いき まし 


画 カ ー ネ ル の ビル ド 設 定 画面 


選択 中 の 項目 や ボタ ン の 移動 に は カー ソル 


$ make 器 
$ sudo make modules_insta1l1 日 


カー ネル ビル ド 設 定 を 追加 ・ 変 更 する た め 
の コマ ンド 。 設定 を 変更 し な い 場合 は 、「ma 
ke olddefconfig 品 ] を 実行 する 


避 こ の マー ク で 改行 


クハ 作 電 人 全 。 で 。 人 


キー や Tab] キー、 ボ タン の 押し 下げ に は 
【Enter] キー、 設 定 の 有効 無効 の 切り 替え 
に は スペ ー ス キー を 使う 。 <Select> ボ タン 
で サブ メニ ュー 画面 、<Exit> ボ タン で 上 位 メ 
ニュ ー 画 面 に 移動 可能 。 トップ メニ ュー で 
<Exit> を 選ぶ と 設定 保存 画面 に 移動 する 


ム 、 


$ sudo make fnstal] 品 


図 1 Ubuntu 14.04 LTS へ の カー ネル 3.15 の 導入 手順 


表 1 kASLR 機 能 を 使う 場合 の 追加 ビル ド 設 定 


kASLH 機 能 を 検証 する 場合 以外 は 、Ubuntu 14.04 LTS の ビル ド 設 定 は 既定 の まま で よい 。 


Processor type and features 
Kenel hacking 


ょ よう 。 利 用 する カー ネル は 、 起 動 メ ニ 
ュー で 選択 で きま す 。 現在 起動 中 の 
カー ネル は 「uname -r ロ |] と コマ ン 
ド を 実施 する こと で 分 か り ま す 

前 述 の 手順 で イン スト ー ル し た パ 
ー ジ ョ ン 3.15 系 列 の カー ネル を 削除 
し て 元 の 環境 に 復元 きせ る 場合 は 次 
の コマ ンド を 実行 し ます 


利用 可能 な メモ リー 
量 が すぐ 分 か る 


簡単 に 調べ られ て 役に立つ 新 機 
能 の 一 つが 、「 利 用 可能 な メモ リー 
量 情報 の 表示 機能 で す 。 こ れ は カ 
ー ネ ル 3.14 で 追加 され た 機能 で 、 
/proc/meminfo フ ァイル で 表示 す 
る 情報 を 拡充 し た も の で す 

カー ネル は procfs と いう 仮想 的 な 
ファ イル シス テム を 通じ て 、 カ ー ネ 
ル の きま ざま な 情報 を ユー ザー や ア 
プリ ケー ショ ン に 提供 し ます 。proc 
fs は 通常 /proc デ ィ レ クト リー に マ 
ウン ト さ れ 、 同 ディ レク トリ ー 以 下 
に 配置 され る ファ イル を 通じ て カー 
ネル 情報 を 閲覧 ・ 変 更 で きま す 。/p 
roc/meminfo フ ァイル は メモ リー の 
使用 状況 に 関す る 情報 を 提供 する 
Drocfs フ ァイル で す 。 

カー ネル 3.13 ま で の /proc/mem 
info の 内 容 の 一 部 を 図 2 左 に 挙げ ま 
し た 。 き さまざま な 情報 が 表示 され る 
こと が 分 か り ま す が 、 実は 「 利 用 可 
能 な メモ リー 量 ] に つい て は 直接 的 


PoWer maneeermeot and ACPI pHons HbemaNon (aka SUPend tp GRK) 
Randomize the address of the kernel imase (NEW) 
Export kernel pagetable layout to userspace Via debugfs 有効] に する ) 


一 カ ー ネ ル 3.13 ま で の /proc/ 
meminfo の 内 容 


SWapCached: 
Active: 


342632 kB 
247404 kB 
289332 kB 
10020 kB 
53300 kB 
237384 kB 


Inactive: 
Active(anon): 
Inactive(anon): 
Active(file): 
Imactive(ff1e): 
人 M 下 動 


利用 可能 な メモ リー 量 は 、⑲+@+⑥ で 


概算 で きる が 、 正確 な 数 値 で は な い 


Part1 


最新 カー 
アデ 


(1 に する ) 
有効 ( ゆ に する ) CONFIG_RANDOMIZE_BASE=y 


CONFIG_X86_PTDUMP=y 
画 カ ー ネ ル 3.14 以 降 の /proc/ 
meminfo の 内 容 


MemTotal: 16415292 kB 
JemFree: 15313236 kB 
LiemAvailable: 15610656kp 
Buffers: 26880 kB 
Cached: 430840 kB 
SwapCached: 0kB 
Active: 590792 kB 
Imactive: 300840 kB 
Active(anon): 434980 kB 
Inactive(anon): 3028 KB 
Active( 介 1e): 155812 kB 
Imactive(file): 297812 kB 

(M 下 動 


利用 可能 な メモ リー 量 を 示す 項 
目 が 追加 され た 


図 2 /proc/meninfo フ ァイル に 利用 可能 な メモ リー 量 を 示す 項目 が 追加 
カー ネル 3.15 以 降 に は 利用 可能 な メモ リー 量 を 示す 「MemAvailable」 と いう 項目 が 加わ っ て いる 。 


この 間 、 フ ァイル B が 存在 し な く な る の で 、 他 の プロ セ 
ス や スレ ッ ド が アク セス し て きた 場合 に 問題 が 生じ る 


「 ーー 
従来 の ファ イル 名 
トミ ャ イィ ファ イル 名 A 一 一 ファ イル 名 c 一 一 池 ファ イル fB 
ファ イル 名 一 一 凶 ファ イル る A 

renameat シ ス 中 間 状 態 を 必要 と せ ず 、 単 一 の 処 
テム コー ル を 使っ 2 EE 理 (アト ミッ ク な 処理 ) で ファ イ 
た ファ イル 名 交換 。。。 ル 名 を 交換 で きる の で 、 他 の プロ 
手順 ファ イル 名 B じ 句 A セス や スレ ッ ド が アク セス し て き 


た 場合 に も 問題 は 生じ な い 


図 3 従来 の ファ イル 名 交換 手順 と renameat2 の 処理 の 比較 
従来 の ファ イル 名 交換 手順 で は 、 ど ちら か の ファ イル 名 が 存在 し な く な る 中 間 状態 が 生じ る 。 renameat2 シ 
ステ ムコ ー ル を 使え ば 、 中 間 状 態 を 必要 と せ ず に 一 気 に フ ァイル 名 を 交換 で きる 。 


な 情報 を 示す 項目 が あり ませ ん で し 
た 。MemFree 項 目 に 未 使用 (空き ) 
メモ リー 量 が 表示 され て いる の で 、 
- 見 それ で 用 が 足り る よう に 思え ま 
す 。 し か し 、 パ バッファ ー や キャ ッシュ 
に 使っ て いる メモ リー の よう に 回 収 
し て 他 の 用 途 に 再 利用 で きる メモ リ 
ー も ある の で 、 実 際 に は そう し た メ 
モリ ー の 量 も 合算 し な けれ ば な り ま 
せん 。 従来 は 、 MemFree 項 目 と Bu 
ffers 項 目 、Cached 項目 の 数 字 を 合 
計 し て 利用 可能 な メモ リー を 概算 す 
る 方 法 が 用 いら れ て きま し た 。 free 
コマ ンド も この 数 値 ま 表示 し ます 


し か し これ は あく まで も 概算 で あ 
り 、 メ モリ ー の 使用 状況 に よっ て は 実 
全 と か け 上 区 れ た 数 値 に な る 恐れ が あ 
り ま す 。 正 確 な 数 値 を 算出 する に は 、 
カー ネル の メモ リー 管理 機構 の 動作 
を 把握 し た 上 で 、 他 の 詳細 項目 の 数 
字 を 使っ て 計算 し な けれ ば な り ま せ 
ん 。 し か し 、 メ モリ ー 管 理 機構 が 変 
更 き れる と 、 そ れ に 伴っ て 項目 や 計算 
式 が 変わ っ て し まう た め 、 こ の 方 法 も 
現実 的 で は あり ませ ん で し た 。 

こう し た 不便 き を 解消 する た め に 
3.14 か ら 追 加 さ れ た の が 「MemAvai 
lable」 項 目 で す 。 同 項目 に は その も 


、 
N 


iR、 


、 還 還 ( 和 
” コ 答 、 


国 renameat っ シス テム コー ル の 書 式 


#1nclude く fcnt1.h> 
#fnclude <stdio.h> 


ジュ 、 


注目 の 新 機能 や 
ン 時 ! 記 代 


1nt renameat2(int olddirfd, 


TTY ーー 


const char *oldpath, 


1nt newdirfd,。 const char *newpath, 


玉 指 定 可能 な フラ グ 
RENAME_NOREPLACE 


RENAME_EXCHANGE PBtiheuath 
換 す る 


ミッ ク に 交 
図 4 renameat2 シ ステ ムコ ー ル の 使用 方 法 


unstgned fnt flags) 


ad し な い 。 同 名 ファ イル が ある 場合 、 エ ラー 


で 指定 し た ファ イル の ファ イル 名 を アト 


ファ イル 名 交換 に 使用 する 場合 は 、RENAME_EXCHANGE フ ラグ を 指定 する 。 


#fnclude <errno.h> 
#1nclude <stdfo.h> 
#1nclude <]11nux/fcnt].h> 
#1nclude <sys/syscal1.h> 


#1f 1def1ned(SYS_renameat2) && def1ined(_. 


#def1ne SYS_renameat2 316 


#end1f 
#1f !def1ned(SYS_renameat2) && def1ned(_ 


#def1ne SYS_renameat2 353 
#end1f 


statfc 1nt renameat2(1nt olddirfd, 
1nt newdirfd, 


x86_64_ 


1386 一 ) 較 数 名 と シス テム コー ル 
番号 の 対応 付け 


const char *oldpath。 
const char *newpathz 


uns1gned 1nt flags) 


較 fdef SYS_renameat2 
return sysca11(SYS_renameat2, 
newd1rfd, 
#else 


errno = ENOSYS: 


#def1ne RENAME_EXCHANGE (1 << 1) 


mafn(fnt argc, char *argV[]) 
1nt reti 

const char *oldpath = Ni 
const char *newpath = 


newpath, 


ol1dd1rfd, oldpath, 


fla9s ) 


テム コー ル 呼 び 出し 用 の ラッ パー 
関数 と フラ グ 定 数 の 定義 


unsfigned 1nt flags = RENANE EXCHANGE: 


1f (argc != 3) 9 USage: 
oldpath = argv[1]: 

newpath = argV[2]: 

1f (lo1dpath 1 
ret = renameai 


PHCT6Rmwass 
1f (!f1ags Terrmo 一 EEkisT) 
perror(""): 

5 return 1: 

return 0: 


USage: 
fprintf(stderr。 
return 1 


図 5 ファ イル 名 交換 ツー ル の サン ブル コー ド 


"usage: %s oldpath newpathW"。 


Inewpath ) goto usage: 
(AT_FDCMD, o1dpath, 
AT_FDCMD・ newpath 


flags): 
errno = ENOTEMPTY: 


argV[0]): 


図 の コー ド を 記述 し た ファ イル を swap.c と いう 名 前 で 保存 し 、[S gcc -o swap swap.c 口 | と コマ ンド を 実 


行 す る と ビル ド で きる 。 


の ずばり の 「 利 用 可能 な メモ リー 
トド され ます (p47 の 図 2 右 )。 
これ に より ユー ザー に よる 計算 の 必 
要 は な く な り ま し た 。 メ モリ ー 管 理 
機構 が 変更 され た 場合 に は 、 それに 


合わ せ て カー ネル 開発 者 が 内 部 の 計 
算式 を 変更 する こと に な っ て いる の 
で 、 安 心して 利用 で きま す 。 

カー ネル 3.13 環 境 と カー ネル 315 
環境 の それ ぞ れ で 「less /proc/me 


minfo | と コマ ンド を 実行 し 、 両 
者 の 信 い を 確認 し て みて くだ さい 


ファ イル 名 を 
直接 交換 で きる 


カー ネル 3.15 で は ファ イル 名 変更 
用 の 「renameatl2] と いう シス テム 
コー ル が 追加 きれ まし た 。 こ の シス 
テム コー ル を 使う と 、2 つ の ファ イル 
の ファ イル 名 や 配置 場所 (パス ) を 
- 気 に 入れ 替え る こと が で きま す 
これ まで 2 つの ファ イル の 名 前 を 入 
れ 替 える に は 、 p.47 の 図 3 の よう に ど 
ちら か の ファ イル 名 を 一 時 的 に 他 の 
ファ イル 名 に する 必要 が あり まし た 。 
これ に よっ て 、 い ずれ か の ファ イル が 
宇和 し な い 瞬 間 が 生じ る こと に な る 
) で 、 他 の プロ モス や スレ ッ ド が その 
ファ イル に アク セス と する と 不具 合 が 
起き る 恐れ が あり ます 。 renamea(2 シ 
ステ ムコ ー ル を 使え ば 、 中 間 状 態 を 必 
要 と せ ず に 一 気 に フ ァイル 名 を 交換 
で きる の で 、 そ うし た 不具 合 の 心配 
は あり ませ ん 。 
renameat2 シ ステ ムコ ー ル の 使用 
方 法 は 図 4 の 通り で す 。 マ ル チ ス レ 
ッ ド 対応 の ファ イル 名 変更 用 シス 
テム コー ル 「renameat| に 、 動 作 
フラ グ を 指定 する 第 5 引数 を 追加 し 
も の と な っ て いま す 。 フ ラグ に ゼ 


ロ っ を 指定 ぼ す れい ば ranamett と 同じ 動 


PLACE を 指定 し た 場合 に は 、 既 存 
ファ イル を 上 書き し ませ ん 。 

2014 年 9 月 中 名 時 点 で は 、Ubun 
tu 1404 LTS な ど が 採用 する 「The 
GNU C Library」 (glibc) と いう C 
ライ プラ リー に は renameat2 シ ステ 

ー ル 呼び 出し 用 の ラッ パー 関数 
が 追加 きれ て いま せん 。 そ の た め 、 
同 シ ステ ムコ ー ル を 使用 する に は 、 


Na 人 公 、 7 


4 


シス テム コー ル 番 号 を 指定 し て sys 
call 関 数 を 呼び 出す ラッ パー 関数 を 
自前 で 用 意 する 必要 が あり ます 。 
図 5 に 機能 検証 用 の サン プル コー 
ド を 示し まし た 。 こ の コー ド を 記述 し 
た ファ イル を 「swapc」 と いう 名 前 で 
保存 し 、「gcc o swap swapc ロ | と 
コマ ンド を 実行 すれ ば 「swap] と い 
う コ マン ド を ビル ド で きま す 。 ビ ルド 
し た swap コ マン ド を 実行 し た 様子 が 
図 6 で す 。 カ ー ネ ル 3.15 環 境 で は 正 
し く フ ァイル 名 を 交換 で き て いる こと 
が 分 か り ま す 。 カ ー ネ ル 3.14 以 前 の 
環境 で 実行 し た 場合 に は 「Function 
not implemented] と いう エラ ー が 表 
示さ れ て 動作 し ませ ん 。 実際 に その 
よう に な る か を 試し て みて くだ さい 


ファ イル 操作 関連 の シス テム コー 
ル で は 、「jallocate] と いう シス テム 
コー ル の 機能 ち も カ ー ネ ル 3.14 と 3.15 
で 強化 きれ まし た 。fallocate は ファ 
イル と ファ イル に 割り 当て る 記録 領 
域 (ディ スク 空間 ) の 対応 付け を 操 
作 す る シス テム コー ル で す 

従来 、 同 シス テム コー ル は 図 7 の 
⑩@ に 示す 機能 だ け を 提供 し て いま 
し た 。⑩ は ファ イル の 指定 範囲 に 記 
録 領域 を 割り 当て る 機能 で す 。 Linux 
で は ファ イル の 一 部 に 記録 領域 を 割 
り 当て な い 「 穴 あき ファ イル 」 (spar 
se ファ イル ) を 作成 で きま す が 、⑩ 
に よっ て その 人 究 あき 部 分 (ホー ル ) に 
記録 領域 を 割り 当て られ ます 。 き は 
逆 に 通常 の ファ イル を 穴 あ き ファ イ 
ル に する 機能 で す 。 同 機能 を 利用 す 
る 場合 は 「FALLOC_FL_PUNCH_ 
HOLE] と いう フラ グ を 指定 し ます 。 

カー ネル 3.14 で は ファ イル の 指定 
範 胃 を 「0] (ゼロ ) で 埋め る の 機 
能 が 追加 され まし た -。 指定 範囲 が ホ 


一 カー ネル 3.15 環 境 で の 実行 還 


* echo "1111" > a ロ 
* echo 2222" > b ロ 
* ./swap ab ロ 


還 カ ー ネ ル 3.14 以 前 の 環境 で の 実行 例 


$ echo “1111" > a ロ 
3 echo “2222">b 器 


* ./swap ab ロ 
Funct1on not 1mplemented 


図 6 ファ イル 名 交換 ツー ル の 実行 例 
カー ネル 3.15 環 境 で は 正しく ファ イル 名 を 交換 で き 
て いる こと が 分 か る 。 


⑥ フ ァイル の 指定 範囲 に 記録 領域 を 割り 当て る 
記録 領 域 が 割 り 当 て られ 記録 領域 が 割り 当て られ 
て いな い 部 分 (ホー ル ) て いな い 部 分 (ホー ル ) 


⑥ フ ァイル の 指定 範囲 を ゼロ で 埋め る 
(3.14 以 降 ) 


條 指定 範囲 が ホー ル 


図 7 fallocate シ ステ ムコ ー ル の 概要 


⑨ フ ァイル の 指定 範囲 か ら 記録 領域 を 解放 する 


較 回 語 語 | 


人 っ た 場合 に は 記録 領 
域 を 割り 当て る 


で ファ イル の 指定 範囲 を 切り 詰め る 


(3.15 以 降 ) 


fallocate は 、 フ ァイル と 記録 領 城 ( デ ィ スク 空間 ) の 対応 付け を 操作 する シス テム コー ル で ある 。 カ ー ネ ル 
3.14 で は 指定 移 囲 を ゼロ に する ⑥ の 要 能 、 カ ー ネ ル 3.15 で は 指定 箇 団 を カッ ト し て ファ イル を 切り 詰め る の 


の 機能 が 追加 され た 。 


ー ル だ っ た 場合 に は 記録 領域 を 割 
り 当 て て か ら 内 容 を 「0] で 埋め ま 
す 。 この 機能 を 利用 する 場合 は 「FA 
LLOC_FL_ZERO_RANGE」 と いう 


カー ネル 3.15 で は ファ イル の 指定 
範囲 を 切り 詰め る ⑲ の 機能 が 追加 き 
れ ま し た 。 と は 違っ て 指定 範囲 
が ホー ル に な る の で は な く 消 滅 し ま 
す 。 フ ァイル サイ ズ も 指定 範囲 の 大 
きき の 分 だ け 小 さく な り ま す 。 

従来 、 フ ァイル の 切り 詰め に は tr 
uncate や ftruncate と いっ た シス テ 
ムコ ー ル が 使わ れ て きま し た 。 し か 
し 、 こ れ ら の シス テム コー ル で は フ 
テ ァイル の 未 尾 し か 切り 詰め られ ず 、 
柔軟 性 に 難 が あり まし た 。 こ の 機能 
を 使え ば 、 例え ば ビデ オ 編 集 時 に 不 
要 な 部 分 を カッ ト す る と いっ た 処理 
を 、 無 駄 な コピ ビー 作業 を 発生 きせ ず 
に 効率 的 に 実施 で きま す 。 利 用 す 
る 場合 は 「FALLOC_FL_COLLAP 
SE_RANGE」 と いう フラ グ を 指定 


し ます 

fallocate シ ステ ムコ ー ル の 強化 し 
た 機能 は 、Linux の 基本 ツー ル を ま 
と め た 「utiLlinunx] の パー ジョ ン 
225 以 降 に 含ま れる [fallocate」 コ 
マン ド で 手軽 に 試せ ます 。 同 コマ ン 
ド は 図 8 の 手順 で ビル ド し て 利用 で 
きま す 。 そ し て コマ ンド 実行 時 に は 
「-Zero-range] また は 「--collapse- 
range」 の オプ ショ ン を 指定 し ます 。 
な お 、 カ ー ネ ル 3.15 の 時 点 で は こ 
れ ら の 機能 は ext4 か XFS の いずれ 
か の ファ イル シス テム で し か 利用 で 
きま せん 。 実験 も それ ら の ファ イル 
シス テム 上 で 実施 する 必要 が あり ま 
す 。 ま た 、@ の 機能 を 使う 場合 は 、 
指定 範囲 の 開始 位置 と 長き は ファ 
イル シス テム の プロ ッ ク サ イズ の 倍 

' で な けれ ば な り ま せん 。 

fallocate コ マン ド を 使っ て 強化 し 
た 機能 を 検証 し た 例 を p50 の 図 9 に 
挙げ まし た 。fallocate コ マン ド の 実 
行 に よっ で 、』 元 々 3 ブロ ッ ク 長 だ っ 


、 
N 


ー eid 
” コ 移 、 


* 当 * 注目 の 新 化 能 や 次 世代 科 を 知 


男 utiHinux の ビル ド 方 法 


$ sudo apt-get update ロロ 
$ sudo apt-get 1nsta1] python-dev 11bncurses5-dev ロ 
$ wget httPps://www.kernel.org/pub/11nux/uti1s/ut11-]11nux/V2.25/uti 


1-11nux-2.25.tar.xz 器 

$ tar dxVvf ut1i1-11nux-2.25.tar.xz 口 
$ cd ut11-1fnux-2.25 口 

$ ./conffgure && make 器 


画 fallocate コ マン ド の 利用 方 法 
(上 記 の ビル ド 作 業 に 引き 続き 以下 を 実施 ) 


・/fallocate 


| ファ イル の 指定 節 を 切り 話 め る 場合 usn5u5bob5b5p ウ うう 5 ラニ un コ g | 
$ ./fallocate --co1llapse-range -o 開始 位置 -1 長 さ ファ イル 名 ロロ 


zero-range -o 開始 位置 -1 長 さ ファ イル 名 ロロ 


図 8 シス テム コー ル の 検証 に 使う 「fallocate] コマ ンド の ビル ド と 利用 の 方 法 
Linux の 基本 ツー ル を まとめ た [utiLlinuxl の バー ジョ ン 2 .25 以 降 に 、fallocate シ ステ ムコ ー ル の 新 要 能 に 対 
応 し た コマ ンド が 含ま れ て いる 。 図 の 手順 で ビル ド し て 利用 で きる 。 


一 サン ブル ファ イル の 作成 
「0」 で 埋め た ブロ ッ ク + ラ ンダ ム な 値 を 書き 込ん だ ブロ ッ ク + 「0] で 埋め た ブロ ッ ク と いう 構 
成 の 「sample] と いう 名 前 の ファ イル を 作成 する 


$ dd 1f=/dev/zero of=sample bs=4096 count=3 品 

$ dd 1f</dev/urandom of=sample bs=4096 seek=1 count=]1 convanotrunc 品 
男 fallocate コ マン ド で ラン ダム な 値 を 書き 込ん だ 中 間 ブ ロッ ク を 切り 詰め る 

$ ./fa1locate --col1apse-range -o 4096 -] 4096 sample 器 


画 od コ マン ド で 結果 を 確認 


3 od -X samp 


0000000 0000 0000 0000 0000 0000 0000 0000 0000 | [0」 で 埋め た ブロ ッ ク が 
内 2 つ 連 続 し て いる こと を 
0020000 示す 出力 


図 9 fallocate コ マン ド で 新 機能 を 検証 
サン プル ファ イル を 作っ て ファ イル の 切り 詰め 機能 を 検証 し た 例 。 ラ ンダ ム な 値 を 書き 込ん だ ブロ ッ ク が フ 
ァイル か ら 消 滅 し て いる こと が 分 か る 。 検 証 は ext4 フ ァイル シス テム で 実施 し た 。 


ステ ム 操作 可能 
ATA ボ ー ト の デバ イス 
ドラ イ バ が 、 す べ て の 接 
続 デバ イス の レジ ュー ム 
旬 理 完了 を 待っ て いた 。 
HDD や 光学 ドラ イブ の 中 
に は レジ ュー ム 処 理 に 時 
時 間 間 が か か る も の が あり 、 
これ が レジ ュー ム 処 理 時 


従来 の レジ ュー ム 処 理 


レジ ュー ム 処 理 時 間 を 短縮 する 対策 間 を 延ばす 原因 だ っ た 
シス テム 操作 可能 
ー ジュ ー HDD や 光学 ドラ イブ の レジ ュ 

人 で 25 ー ム 処理 完了 を 待た ず に ATA 
ポート の レジ ュー ム 処 理 を 完 
了 さ せる こと で 、 シス テム を 操 
作 可能 に な る まで の 時 間 を 短 
縮 で きる 

バッ ク グ ラウ ンド で 処理 を 継 鐵 

時 間 


図 10 レジ ュー ム 処 理 に 時 間 が か か っ て いた 原因 と 対策 


従来 は HDD や 光学 ドラ イブ な どの レジ ュー ム 処 理 完了 を 待っ て か ら シ ステ ム を 再開 し て いた の で 時 間 が か 
か っ て いた 。 先 に シス テム を 再開 し て か ら 、 バ パッ ク グ ラウ ンド で HDD や 光学 ドラ イブ 類 の レジ ュー ム 処 理 を 
進め る よう に すれ ば 、 ユ ー ザ ー が 操作 を 再開 で きる まで の 時 間 を 短 幼 で きる 。 


まま 


た ファ イル の 中 間 プ ロッ ク が 切り 詰 
め ら れ 、2 プ ロッ ク 長 の ファ イル に 
な っ た こと が 分 か り ま す 。 


サス ペン ド か ら 
高速 に 復帰 で きる 

対話 的 な 操作 が 一 定時 間 な い 場 
合 な ど に 、 主 メモ リー 以外 へ の 電源 
供給 を 可能 な 限り カッ ト し た 省 電 
カモ ー ド に 移行 する こと を Linux で 
は 「 サ スペ ンド 」 と 呼び ます 。 こ れ 
は Windows の 「 ス リー プ ] に 相当 
する も の で す 

サス ペン ド 機 能 の 使い 勝手 を 左右 
する ポイ ント の 1 つが 、 シ ステ ム の 
復帰 (レジューム) に か か る 時 間 で 
す 。 いき ぎ 操 作 し よう と 思っ て も レジ 
ュー ム に 時 間 が か か る よう で は 使い 
づら いと 感じ て し まい ます 。 カ ー ネ 
ル 3.15 で は 、HDD や 光学 ドラ イブ 
を 接続 する ATA (Advanced Tech 
nology Attachment) ポー ト を 制御 
する デバ イス ドラ イ バ を 改良 し て 、 
レジ ュー ム の 所 要 時 間 を 大 帆 に 短 
縮 し て いま す 

カー ネル 3.14 まで の レジ ュー ム 処 
理 に 時 間 が か か っ て いた 理由 の 1 つ 
は 、ATA ポ ー ト の デパ イス ドラ イ 
パ が 、 接 続 さ て えて いる デバ イス の 復 


帰 処理 完了 を 待っ て いた こと に あり 
まし た ( 図 10)。 カ ー ネ ル 3.15 で は 、 


ATA ポ ー ト を 制御 する [libatacore] 
と いう デパ イス ドラ イ バ を 改良 し て 、 
接続 デバ イス の 処理 完了 を 待た ず に 
レジ ュー ム 処 理 を 終え られ る よう に 
し まし た 。 ま た 、 そ れ と 並行 し て 、 
SCSI (Small Computer System Int 
erface) ドラ イ バ を 改良 し て 、 接 続 デ 
パイ ス の 復帰 処理 を 並行 実施 で きる 
よう に し て いま す 。 こ れ ら の 改良 に 
よっ て 、 復帰 時 間 を 数 秒 単位 で 短縮 
する こと に 成功 し まし た 。 

それ で は 実際 に レジ ュー ム 処 理 の 


最新 カー ネル の 技術 を 見 る 


A マ ーー 。 


内 容 と 時 間 を 調べ て み ま し ょ う 。 調 
査 に は 、 カ ー ネ ル の ソー スコ ー ド に 
付属 する 「analyze_suspend.py」 と 
いう スク リプ ト を 使い ます 。 この スク 
リプ ト を 使う に は 、「initcall_debug 
log_buf_len=16M」 と いう 起動 オプ 
ショ ン を 渡し て カー ネル を 起動 し て 
お く 必 要 が あり ます 。 そ れ に は 、 起 
動 メ ニュ ー で 手動 設定 する か 、/etc/ 
default/grub フ ァイル の 「GRUB_ 
CMDLINUX_LINUX_DEFAULT] 
行 に 記述 し て か ら 、「sudo update- 
grub ロ | と コマ ンド を 実行 し ます 
続い て 、scripts デ ィ レ クト リー で 
次 の コマ ンド を 実行 し ます 


$ sudo ./analyze_suspend.py 各 


実行 後 す ぐに サス ペン ド 状 態 に 
移行 する の で 、 何ら か の キー を 押し 
下げ て レジ ュー ム さ せま す 。 無事 に 
レジ ュー ム が する と 、 ス クリ プ ブ 
ト が 終了 し て 実行 ディ レク トリ ー に 
「suspend-| か ら 始ま る 名 前 の ディ 
レク トリ ー が 作成 され 、 そ の 中 に 調 
査 デー タ を 記録 し た HTML フ ァ イ 
ル が 作成 きれ ます 

カー ネル 3.14 と カー ネル 3.15 の レ 
ジュ ー ム 処理 の 内 容 と 時 間 を 比較 し 
た も の が 図 11 で す 。 カ ー ネ ル 3.15 で 
は 、HDD や 光学 ドラ イプ な どの レジ 
ュー ム 処 理 完了 を 待つ 必要 が な く な 
っ て お り 、 そ れ に よっ て で レジューム 
時 間 が (この テス ト 環 境 で は ) わ ず 
か 04 秒 程度 と 、 約 6 秒 短縮 で き て い 
る こと が 分 か り ま す 。 


圧縮 機能 付き RAM 
% ディ スク を 強化 


カー ネル 3.14 で は 、 従 来 テ スト 
機能 と し て 位置 付け られ て いた 「zr 
am」 と いう メモ リー 圧縮 機能 が 正式 
採用 され まし た 。zram に つい て は 、 


レジ ュー ム 時 間 : 6179 ミ リ 秒 


カー ネル 3.14 


HDD や 光学 ドラ イブ な どの レジ ュー ム 
処理 待ち に 長い 時 間 が か か っ て いる 


] 


ぶ 上 下 の 図 は スケ ー ル が 異な る 点 に 注意 
サス ベンド 時 間 : 860 ミ リ 秒 


レジ ュー ム 時 間 1364 ミ リ 秒 


カー ネル 3.15 


図 11 カー ネル 付属 


| 闇 当 開 隔 半 | 


ー ル を 使っ た レジ ュー ム 時 間 や 処理 内 容 の 比較 


Tr 1 


カー ネル ソー ス に 付属 する 「analyze_suspend py] と いう ツー ル で カー ネル 3.14 環 境 と 3.15 環 境 の レジ ュー 


ム 時 間 や 処理 内 容 を 調査 し た 結果 。 


* sudo modprobe zram 品 


$ sudo -1 品 (大 カッ コ 内 は 現 


# exit 器 


1zo [1z4] 


還 zram デ バイ ス の 圧 編 アル ゴリ ズム 変更 手順 


$ cat /sys/block/zram0/comp_algor1thm 器 
[1zo] 1z4 利用 可能 な アル ゴリ ズム 一 覧 

在 選択 中 の も の ) 
# echo "1z4" > /sys/block/zram0/comp_algor1thm ロ 


$ cat /sys/block/zram0/comp_algor1thm 


/dev/zram0 で 使用 する 圧縮 アル 
ゴリ ズム を 変更 する 場合 の 例 。 
アル ゴリ ズム 変更 作業 は ディ ス 
クサ イズ の 指定 前 に 実施 する 必 
要 が ある 


還 Ubuntu 14.04 の zram 設 定 (/etc/init/zram-config.conf) の 変更 例 


(中 略 ) 
# fnitfa11ze the devfices 


for 1 fn $(seq ${(NRDEVICES]}): do 


DEVNUMBER=$((1 - 1)) 


echo "1z4" > /sys/b1lock/zram${DEVNUMBER] /comp_algorithm 
echo $mem > /sys/block/zram$ (DEVNUMBER]/d1sks1ze 


(以下 路 ) 


図 12 zram デ バイ ス の 圧縮 アル ゴリ ズム 変更 手順 


圧縮 アル ゴリ ズム は デバ イス 単位 に 設定 で きる 。 ア ル ゴ リ ズム 変更 作業 は ディ スク サイ ズ の 指定 前 に 実施 す 


る 必要 が ある 。 


次 の Part2 で 詳し く 紹 介し ます 
カー ネル 3.15 で は zram に お いて 、 
従来 LZO (LempeLZiv-Oberhume 
r) だ け の 対応 だ っ た 圧 箱 アル ゴリ 
ズム を 拡充 し 、 処 理 速 度 が 高速 な 
「LZ4」 の 利用 が 可能 に な り ま し た 。 
LZ4 は 2011 年 に 発表 きれ た 新しい 
圧縮 アル ゴリ ズム で す 。 圧縮 ・ 伸 
長 処 理 を 高速 実行 で きる の が 大 き 
な 特徴 で 、 特 に 伸長 処理 に つい て は 
LZO な ど 他 の 方 式 の 数 倍 も 高速 で 


き ト 
Ns、 症 答 商 4 


す 。 LZ4 に 対応 し た こと で 、zram 
デバ イス に 対す る 入出 力 処理 を 高 
速 化 で きる と 見 込ま れ て いま す 。 
既定 で は 従来 通り LZO が 選択 き 
れ ま す が 、 各 zram デバイス に 対し 
て 独立 に 圧 乏 ア ル ゴ リズ ム を 選択 で 
きる よう に な っ て いま す 。zram デ 
バイ ス の 圧縮 アル ゴリ ズム 変更 手 
順 は 図 12 上 の 通り で す 。「zram] と 
いう カー ネル モジ ュー ル を 読み 込ん 
だ 後 、 例え ば |zram0] で 利用 で き 


ee 
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下 還 下 還 画 還 B 
ーー Pread Fread 書き 込み 書き 込み 。Pwnte Fwrie 
(ラン ダム ) 
検証 は AMD Opteron 3280 搭 載 機 で 実施 。2G バ イト サイ ズ の zram デ バイ ス を ext4 で 初期 化 お 


よび マウ ント し て 、IOzone を 「$ sudo iozone -| -R r 16K -s 128M -t 4 中 | の よう に 実行 し た 。 


図 13 zram デ バイ ス の 圧縮 アル ゴリ ズム に よる 性 能 の 違い 
ペンチ マー クソ フト [IOzons」 に よる 性 能 比較 。 読み 出し 性 能 で は 一 部 LZ4 が 、 書 き 込み 性 能 で は LZO が 気 ね 
勝る と いう 結果 が 得 ら れ た 。 


読み 出し 読み 出し 
(ラン ダム ) 


表 2 FUSE を 使っ て 実 敵 さ れ た フ ァイル シス テム の 例 
E 人 人 珠 ファ イル シス テム 


fuse-zjp ZIP アー カイ ブ を マウ ント し て 読み 書き で きる 

GlusterFS クラ スタ 環境 向け の 分 散 ファ イル シス テム 

HttpFS Web デ ィ レ クト リー を マウ ント し て ファ イル を 読み 込め る 
ntfs-3g Windows な ど で 使わ れる NTFS を 読み 書き で きる 

SSHFS SSH 経 由 で リモ ー ト ファ イル シス テム を 読み 書き 可能 に する 
ZFS on FUSE 高 機能 ファ イル シス テム 「ZFS] の FUSE 実 装 版 


る 圧縮 アル ゴリ ズム を 調査 する に は 
次 の コマ ンド を 実行 し ます 。 


表示 結果 の うち 大 か っ こ で 了 囲ま 
れ て いる も の が 下條 選択 中 の 圧縮 
アル ゴリ ズム で す 。 こ の ファ イル に 
アル ゴリ ズム 名 を 書き 込む こと で 、 
Zram デパ イス に 適用 する 圧 
ゴリ ズム を 変更 で きま す 。 た だ し 、 
圧縮 アル ゴリ ズム 変更 作業 は ディ 
スク サイ ズ の 指定 前 に 実施 する 必 
要 が あり ます 。 

また 、「zram-config] パッ ケー ジ 
を 導入 し て 自動 作成 され る Ubuntu 
14.04 LTS の zram ス ワッ プ デ バ イス 
の 圧縮 アル ゴリ ズム を 変更 する 場合 
は 、 /etc/init/zram-coniig ファ イル 
の 該当 部 分 に p.51 の 図 12 下 の 赤色 
で 示し た 行 を 挿入 し ます 。 

圧縮 アル ゴリ ズム に よる 性 能 差 が 
どの 程度 ある か を 、 ベ ンチ マー クソ フ 
ト 「IOzone」 で 調べ た 結果 を 図 13 に 
示し まし た 。 読 み 出し 性 能 で は 一 部 


LZ4 が 、 書き 込み 性 能 で は LZO が 概 
ね 勝る と いう 結果 が 出 て いま す 。 現 
時 点 で は LZ4 に それ ほど 劇 的 な 優位 
性 が ある わけ で は な いよ う で す 


FUSE が ライ トバ ッ ク 
キャ ッシュ に 対応 

カー ネル 3.15 に は 、「FUSE」 (Fil 
esystem in Userspace) を ライ トバ 
ッ ク キ ャ ッシュ 対応 に する 改良 も 
加え られ まし た 。FUSE と は 、 フ ァ 
イル シス テム を 一 般 の アプ リ ケ ー シ 
ョ ン と 同じ 「 ユ ー ザ ー 空 間 ] で 稼働 
する プロ グラ ム と し て 実装 可能 に す 
る 仕組 み で す 。 

ファ イル シス テム は 一 般 に カー ネ 
ル 空 間 で 動作 する プロ グラ ム と し て 
実装 され ます 。 し か し 、 そ うし た プ 
ログ ラム の 開発 は 簡単 で は あり ませ 
ん 。 デ パック グ 作業 な ど に 通常 の アプ 
リケーション と は 異な る 手法 が 必要 
な 上 、 作 成 し た プロ グラ ム に は カー 
ネル に よる 保護 が 効き に くく 、 バ パグ 
が 存在 する と シス テ ュ 破 壊 な ど に つ 
な が る 重大 な 問題 が 生じ や すい か ら 


で す 。 ま た 、 必 然 的 に カー ネル と 一 
体 と な っ て 動作 する プロ グラ ム に な 
る の で 、 何 も 工夫 し な いと カー ネル 
と 同じ GPL 派 生 ラ イセ ンス を 採用 し 

な けれ ば な ら な いと いう 制約 も 生じ 
ます 

ー 方 、FUSE を 使っ て ユー ザー 空 
間 プ ログ ラム と し て ファ イル シス テ 
ム を 実装 すれ ば 、 そ うし た 問題 に 
頭 を 悩ま す 必要 が な く な り ま す 。 フ 
ァイル シス テム の 開発 難度 が ぐっ と 
下がる こと か ら 、FUSE を 使っ た 多 
種 多 様 な ファ イル シス テム が 開発 さ 
れ て いま す ( 表 2)。 実用 的 な ファ 
イル シス テム も 多数 開発 され て いま 
す 。 例 えば 、Linux で 「NTFS] の 
読み 書き に 利用 する 「ntfs-3g] は 、 
FUSE で 実装 され た ファ イル シス テ 
ム で す 。 ま た Sun Microsyste 
ms 社 (2010 年 に 米 Oracle 社 が 買収 ) 
が 開発 し た 高 機能 ファ イル シス テム 
「ZFS] に つい て も 、Ubuntu 14.04 
LTS を は じ め と し た ほとん どの ディ 
スト リピ ビュ ーション が 、 FUSE 版 の 
実装 で ある 「ZFS on FUSE」 の 開 
発 成果 を 利用 し て いま す 

これ ら の 利点 が ある 半面 、FUSE 
は 処理 速度 的 に は どう し て も 不利 
で す 。 カ ー ネ ル 内 に 実装 され た ファ 
イル シス テム を 利用 する 場合 と 信 っ 
て で 、 実 行 時 に ユー ザー 空間 と カー ネ 
ル 空 間 を 切り 替え る 「 コ ン テ キ スト 
スイ ッ チ 」 処理 が 生じ る か ら で す 

し か も FUSE は 、 カ ー ネ ル 3.14 ま 
で は 「 ラ イト スル ー キ ャ ッシュ 」 に し 
か 対応 し て いま せん で し た 。 「 ラ イト 
パッ クキ ャ ッシュ 」 に 対応 する 通 党 
の ファ イル シス テム に 比べ る と 、 そ の 
上 不 で も 性 能面 で 不利 で し た 。 デ ー タ 
書き 込み 時 に キャ ッシュ と スト レー 
ジ の 両方 を 変更 する の が ライ トス ル 
ー キ ャ ッシュ 、 キ ャ ッシュ だ け を 変 
更 し て スト レー ジ へ の 反映 は 後回し 
に する の が ライ トバ ッ ク キ ャ ッシュ 


ラコ 紀 Nm) 公 、 アレ 


で す ( 図 14)。 ス トレ ー ジ へ の 書き 込 
み 処 理 を 減ら せる ライ トバ ッ ク キ ャ 
ッシュ の 方 が 性 能 を 出せ ます 。 カ ー 
ネル 3.15 で ライ トバ ッ ク キ ャ ッシュ 対 
応 を 実現 し た こと で 、FUSE の 書き 
込み 性 能 は か な り 向 上 し た は ず で す 。 

それ で は どの 程度 性 能 が 向上 し 
た の か を 確認 し て み ま し ょ う 。 2014 
年 9 月 下旬 時 点 で は 、 ラ イト バッ 
クキ ャ ッシュ 機能 を 有効 化 で きる 
FUSE フ ァイル シス テム は まだ は と 
ん ど あ り ま せん 。 対 応 し て いる の は 、 
FUSE の ユー ザー 空間 ライ プラ リ と 
一 緒 に 配布 きれ て いる 「fusexmp_ 
還 ] と いう サン プル ファ イル シス テ 
ム の 開発 版 程度 で す 。fusexmp_fh 
は ルー ト フ ァイル シス テム を 任意 の 
マウ ント ポイ ント に マウ ント し て 参 
照 可 能 に する ファ イル シス テム で 
す 。 そ れ 以 外 の 特別 な 機能 は 持た な 
い の で 、 キ ャ ッシュ の 効果 が 出 や す 
いと 考え られ ます 。fusexmp_ 了 h は 、 
Ubuntu 14.04 LTS で は 図 15 の 手順 
で ビル ド し て 利用 で きま す 。 

dd コマ ンド で 1G パ イト の デー タ を 
fusexmp_h フ ァイル シス テム を 通じ 
て 書き 込む 際 の 性 能 を 、 プ ロッ クサ 
イズ を 変え な が ら 計 測 し た 結果 を 図 
16 に 示し まし た 。 ラ イト バッ クキ ャ 
ッシュ を 有効 化す る と 、 ベ ペー ス フ ァ 
イル シス テム (ext4) に 追 る 性 能 が 
出る こと が 分 か り ま す 。 な お dd コマ 
ンド に は 、 コ マン ド 終 了 時 に デー タ 
を 同期 させ る 「conv=Idatasync」 オ 
プシ ョ ン を 指定 し て いま す 。 


Btrfs サ プ ポ リュ ー ム の 
使い 勝手 が 向上 


カー ネル 3.15 に は 、 フ ァイル シス 
テム 「BtrfsS] で 設定 で きる 「 サ プ 
ボリ ュー ム 」 と 呼ば れる 部 分 領域 を 
取り 扱い や すく する 改良 も 施さ きれ て 
いま す 。Btrfs は Part2 で 詳し く 紹 介 


ライ トバ ッ ク キ ャ ッシュ 


すぐ に は スト レー ジ に 書き 
出さ ず 、 後 で まとめ て 実施 


と ライ トバ ッ ク キ ャ ッシュ 
両方 を 変更 する の が ライ トス ルー 
Z へ の 反映 は 後回し に する の が ラ 
イト バック キャ ッシュ で ある 。 スト レー ジ へ の 書き 込み 処理 を 小 ら せる 後者 の 方 が 
性 能 を 出せ る 。 


玉 fusexmp_ 和 の ビル ド 方 法 
sudo apt-get update 器 


sudo apt-get 1nsta1l1 git automake 11btool 品 
g1t clone g1t://g1t.code.sf.net/p/fuse/fuse ロ 


cd fuse 器 
・/makeconf.sh 回 
・/conffgure && make 器 


(上 記 の ビル ド 作 業 に 引き 続き 以下 を 実施 ) 
$ cd example 器 


3 sudo 


-/fusexmp_fh 


$ sudo ./fusexmp_fh -o no_wr1teback_cache /mnt 器 


図 15 FUSE の 性 能 検 証 に 使う [fusexmp_fh]」 の 利用 方 法 
FUSE の ユー ザー 空間 ライ ブラ リー と 一 緒 に 配布 まれ て いる 「fusexmp_ 人 hJ と いう サン プル ファ イル シス テム 
が ライ トバ パッ クキ ャ ッシュ に 対応 し て いる 。 図 の 手順 で ビル ド し て 利用 で きる 。 
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図 16 ライ トバ ッ ク キ ャ ッシュ 有効 化 に より FUSE の 書き 込み 性 能 が 向上 
FUSE の サン プル 実装 「fusexmp_ fh を 使っ て 、dd コ マン ド で 1G バ イト の デー 還 全 あの 匠 の 仁和 レ 4 


ロッ クサ イズ を 恋 え な が ら 計 測 し た 。 ラ イト バッ クキ ャ ッシュ を 有効 化す る と 、 


(ext4) に 区 敵 する 性 能 が 出る こと が 分 か る 。 


し て いる 通り 、 高 機能 な ファ イル シ 
ステ ム で す 。 サ プ ボ リュ ー ム も Br 
fs が 備え る 機能 の 1 つ で す 

サ プ ポ リュ ー ム と は 、 BtrIis の ファ 
イル シス テム ツリ ー の 一 部 に 名 前 を 


ー ス ファ イル シス テム 


付け 、 独 立 し た ファ イル シス テム 領 
域 と し て 利用 可能 に し た も の の こと 
で す (p54 の 図 17)。 作成 し た サ プ 
ポリ ュー ム は 、 元 の Btrfts ファ イル シ 
ステ ム と 無関係 な 別 の 場所 に マウ ン 


~ 0I 還 答 両 
4 和 S、 


| 


カー ネル 3.14 に は 、kASLR と い 
う セ キュ リティ 機能 が 追加 きれ まし 
た 。 こ れ は 、 カ ー ネ ル 空間 内 の プ 


ジー ニュ 、 


ト し た り 、 独 自 の 容量 制限 を か けた 
り で きま す 。 こ の 機能 を 活用 する と 、 
カー ネル の 「LVM」 (Logical Volu 
me Manager) 機能 に 相当 する 柔軟 
な スト レー ジ 管 理 を 実現 で きま す 。 

便利 な サ プ ボ リュ ー ム で す が 、 カ 
ー ネ ル 3.14 ま で は 同一 ファ イル シス テ 
ム 内 の サ プ ボ リュ ー ム を 異な る 読み 
書き 権限 で マウ ント で き な い と いう 制 
限 が あり まし た ( 図 18 上 )。 こ の 問題 
を 回 避 す る に は 、 一 度 す べ て の サブ 
ボリューム を 「 読 み 書 き 可 ] で マウ ン 
ト し て 、 リ ー ド オン リー に し た いも の 
だ け を bind マ ウン ト す る 必要 が あっ 
た の で す 。 こ の 制限 の た め 、/etc/fs 
tab フ ァイル の 設定 だ け で は 希望 する 
読み 書き 権限 で す サ プ ポ リュ ー ム を マ 
ウン ト で き な い ケー ス が あり まし た 

カー ネル 3.15 で は この 制限 が 取り 
払わ れ 、 異な る 読み 書き 権限 で サ プ 
ポリ ュー ム を マウ ント で きる よう に 
な り ま し た ( 図 18 下 )。 実際 に サブ 
ポリ ュー ム を 作成 し て 、 確 認 し て み 
て くだ さい 。 


kASLR 機 能 で カー ネル 
の 安全 性 が 向上 


ログ ラム や デー タ の 配置 を カー ネル 


で 、 カ ー ネ ル の セキ ュ リ ティ を 破る 
攻 黄 を 困難 に する 機能 で す 。 

ユー ザー 空間 の プロ グラ ム に つい 
て は 、 こ うし た ラン ダ み ム 化 (ASLR) 
の 取り 組み が 早く か ら 進 め ら れ て い 
まし た 。2005 年 に リリ ー ス され た バ 
ー ジ ョ ン 26.12 の カー ネル に ASLR 
機能 が 追加 され 、 以降 は スタ ッ ク や 
ヒー プ 、 プ ログ ラム コー ド 、 共有 
ライ ブラ リ な どの 配置 を ラン ダス 化 
で きる よう に な り ま し た 。 Ubuntu 
14.04 LTS で も この ASLR 機 能 は 既 


Btrfs フ ァイル 
シス テム 


ファ イル シス テム の 任意 の ポイ ント 
を 起点 に し た 領域 を サブ ボリ ュー ム 
に 設定 で きる 


ーー mn 、 
注目 の 新人 能 や 次 世代 入 能 を 知る 


定 で 有効 化 さ れ て いま す 。 試 し に 、 
参照 し た プロ グラ ム 自 身 の メ モリ ー 
マッ プ を 表示 する /proc/self/maps 
ファ イル の 内 容 を 調べ て み ま し ょ 
う 。 参 照 す る た びに (この 場合 、cat 
プロ モス の 起動 の た びに ) ヒー プ や 
スタ ッ ク 、 共 有 ラ イプ ラリ ー の 配置 
テア ドレ ス が ラン ダム に 変化 する 様子 
が 分 か り ま す ( 図 19)。 

一 方 、 カ ー ネ ル 空間 で の ASLR 機 
能 の 導入 に は 時 間 が か か り ま し た 。 カ 
ー ネ ル 内 部 の プロ グラ ム 実 行 や デー 
タ 参 照 方 法 は ユー ザー 空間 の プロ グ 
ラム と 全く 異な り 、 単 純 に ユー ザー 


サブ ポリ ュー ム は 独立 し た ファ イル シ 
ステ ム と し て 利用 可能 。 マ ウン ト ポ イ 
ント に マウ ント し て 利用 し た り 、 最 大 
容量 を 設定 し た り で きる 


画 Btrfs フ ァイル シス テム と サブ ポリ ュー ム の 作成 例 


3 sudo mkfs.btrfs /dev/sdb1 ロ /dev/sdb1 で 示さ れる HDD 区 画 に Btfs フ ァイル シス 
4 sudo mount -t btrfs /dev/sdb1 /mnt 品 | テム を 作成 し 、 そ れ を /mnt に マウ ント する 場合 の 例 


* cd /mt ンス あの プス 人 

た い 人 箇所 に 移動 し て 「sudo btrfs subvolume crea 
sudo btrfs ubyolume creats f00 ロサ プ ボ リューム 名 ロ | と いう コマ ンド を 実行 す 
5 sudo btrfs subwolume create bar 避 | る と 、 サ ブ ボ リュ ー ム が 作成 され る 


図 17 Btrts の サブ ボリ ュー ム の 概要 


ファ イル シス テム の 一 部 を 独立 し た ファ イル シス テム と し て 切り 出す 機能 が サブ ポリ ュー ム で ある 。 


一 カー ネル 3.14 ま で の Btrfs サ ブ ポ リュ ー ム の マウ ント 


$ sudo mount -t btrfs -o rw,.subvol=foo /dev/sdb1 /mnt/vo11 器 


同 二 ファ イル シス テム 内 の サブ ポリ ュー ム を 異な る 読 


$ sudo mount -t btrfs -o ro.subvo1=bar /dev/sdb1 /mnt/vo12 口 | み 書 き 権限 で マウ ント し よう と する と エラ ー に な っ て 
い 


mount: /dev/sdb1 fs already mounted or /mnt/vo12 busy 


$ sudo mount -t btrfs -o rw,subvol=bar /dev/sdb1 /mnt/vo12 品 
$ sudo mount --bfnd -oremount,ro /mnt/vo12 


た 


問題 を 回 選 す る に は 、 一 度 す べ て の サブ ポリ ュー ム を 


「 読 み 春 き 可 ] で マウ ント し て 、 リ ー ド オン リー に し た 
いも の だ け を bind マ ウン ト す る 必要 が あっ た 


一 カー ネル 3.15 以 降 の BtrfsS サ ブ ポ リュ ー ム の マウ ント 


$ sudo mount -t btrfs 
$ sudo mount -{t btrfs 


o rw.subvol-foo /dev/sdb1 /mnt/vo11 回 | 同一 ファ イル シス テム 内 の サブ ボリ ュー ム を 異な る 読 
Oro.Subvo]-bar /dev/sdb1 /mnt/vo]2 器 ] み 香 き 権 限 で 直接 マウ ント で きる よう に な っ た 


この 改良 に より 、 従来 は 不可 能 だ っ た /etc/fstab フ ァイル で の 異な る 読み 青き 権限 の 設定 が 可能 に な っ た 


図 18 Btrlts サ ブ ボ リュ ー ム を 異な る 読み 書き 権限 で 直接 マウ ント 可能 に 
カー ネル 3.15 以 降 で は 、 同 一 ファ イル シス テム 内 の サブ ボリ ュー ム を 異な る 読み 書き 権限 で 直接 マウ ント で きる よう に な っ た 。 


や 人 全 


空間 で の ASLR 機 能 を 応用 する わけ 
に は いか な か っ た か ら で す 。 カ ー ネ 
ル 3.14 の 時 点 で は カー ネル イメ ー ジ 
の 配置 に 限定 し て ラン ダム 化 を 実現 
し まし た 。kASLR 機 能 を 有効 に する 
と 、 カ ー ネ ル イメ ー ジ 配置 エリ ア を 
通常 より も 拡大 し 、 そ の エリ ア 内 の 
ラン ダム な 位置 に カー ネル イメ ー ジ 
を 読み 込み ます ( 図 20)。 さ ら に カー 
ネル 3.15 で は 、 モ ジュ ー ル 配置 エリ 
ア の 先頭 に ラン ダム サイ ズ の オフ セ 
ッ ト を 置く こと で 、 モ ジュ ー ル 読み 込 
み 位 置 の ラン ダム 化 を 実現 し まし た 
実際 に kASLR が 機能 し て いる 様 
子 を 確認 し て み ま し ょ う 。 確認 する 
に は 、 先 に 挙げ た 表 1 の ビル ド 設定 を 
追加 し て パー ジョ ン 3.15 系 列 の カー 
ネル を ビル ド 、 イ ンス トー ル し て 起 
動 す る 必要 が あり ます 。 起 動 後 、 次 
の コマ ンド を 実行 する と カー ネル 空 
間 の メモ リー 配置 を 調べ られ ます 。 


x86_64 版 カー ネル で は p56 の 
21 の よう な 結果 が 得 ら れ ま す 。 カ ー 
ネル イメ ー ジ の 配置 と 、 モ ジュ ー ル 
配置 エリ ア 先 頭 の オフ モッ ト サ イ ズ 
が 、 カーネル 起動 の た びに 変化 する 
こと が 分 か り ま す 。 な お 、kASLR 
機能 は 「nokslr] と いう 起動 オプ シ 
ョ ン を カー ネル に 渡す こと で 一 時 的 
に 無効 化 で きま す 。kASLR 機 能 を 
無効 化し て 同じ 調査 を する と 、 メ モ 
リー 配置 が 固定 的 で ある こと が 分 
か る は ず で す 。 そ れ に つい て も ぜひ 
調べ て みて くだ さい 。 


情報 を 漏らさ な いた め の 変 更 
kASLR 機 能 に よっ て カー ネル イ 
ae 
ム 化 で きま す が 、 procfs な ど を 通じ 

て NNNPAXreypPeey 


$ cat /proc/self7mFS 引 


00400000-0040b000 r-xp 00000000 08:01 1179671 /bin/cat 
00603000-0060b000 rp 00008000 08:01 1179%671 him/cat 
ーーー ーー rwrp 0000b000 08:01 1179671 /biWct 


【leap] 
Asr/11b/]ocale/1ocale-archive 
/lib/X86 64-11nix-gmu/ibc-2.19.50 
/iib/x86 64-11nux-mu/1ibc-2.19.so 
/lib/x86.64-11nuk-gmw/1ibc-2.19.so 
/Hib/x86.64-11muk-gmw/1ibc-2.19.0 


/lib/x86 64-11nux-qmu/1d-2.19.so 


Iib/x96_64-11nuk-gnu/1d-2.19.s0 
/11b/x96_64-11nk-gu/1d-2.19.s0 


[stacM 
【vdso] 


プロ グラ ム 実 行 の 度 に 、 ヒ ー プ や スタ ッ ク 、 
ば の みな ワン 


実行 コ タ の 位置 を 推測 
し うく を る こと で 、 を 且 け に くく な る ] 


/Asr/11b/1ocale/1ocale-archive 
/11b/x86_64-1fnux-gmu/11bc-2.19.50 
/11b/x86_64-11mux-mu/1fbc- 
/1tb/x86_64-11nuX-gmu/11bc- 
/1tb/x96_64-1fmuX-gmu/11bc-2.19.so 


$ cat /prc/self/msps 器 
00400000-0040b000 r-xp 00000000 08:01 
00600001 0060b000 r- "P.0008000 06:01 


/1tb/x96.64-11muX-gnu/1-2.19.so 


/1ib/x%_64-11mwX-gnu/1d-2.19.s0 
Iib/X86.64-1fmuX-gmu/1d-2.19.s0 


[stack 
: 0| 
ffffffffff600000-ffffffffff601000 r-xp 00000000 00:00 0 [wsyscal1] 


図 19 ユー ザー 空間 で の ASLR (Address Space Layout Randomization) 
Linux カ ー ネ ル は 、2005 年 リリ ー ス の バー ジョ ン 2.6.12 か ら ユ ー ザ ー 空 間 で の ASLR 概 能 を 備え で いる 。 こ 
の 要 能 に より 、 ス タッ ク 、 ヒ ー プ 、 プ ログ ラム コー ド 、 共 有 ラ イブ ラリ な どの 配置 を ラン ダム 化 で きる 。 


プロ セス の 仮想 メモ リー 空間 


258 の 62 ツバ スロ ッ ンク 2Cmt 


カー ネル イメ ー ジ 配置 エリ ア の サイ ズ 
_- は 通常 の カー ネル より 拡大 され 、 そ の 
空間 内 の ラン ダム な 位置 に カー ネル イ 
| メー ジ が 読み 込ま れる 


kASLR に する と カー. 
ミール の 図 20 kASLR 機 能 の 概要 
カー ネル 起動 の : 


置場 所 が 、 た | カー ネル 3.15 の 時 点 で は 、 カ ー ネ ル イメ ー ジ と 
びに ラン ダム に 変わ る 人 


ム に 変化 させ る こと で 、 そ れ ぞ れ の コー ド や デー 
タ の 配置 を 推測 し づら くし て いる 。 


て いて は kASLR 機 能 の 効果 が 十分 
に 発揮 きれ ませ ん 。 そ こ で カー ネル 
3.15 で は 、 プ ロモ セス に 関す る 重要 な 
実行 情報 を 提供 する p56 の 表 3 に 示 


す procfs フ ァイル の アク セス 権 ( パ 
ー ミ ッ シ ョ ン ) を 、 誰 で も 情報 を 参 
照 で きる 「444] (r-r-r-) か ら 、 プ 
ロモ ス の 実行 権限 の 持ち 主 だ けが 参 


、 較 ( 衝 
る 人 


4 


ー-[ Hfgh Kernel Mapping ]--- 
Oxffffffff80000000-0xffffffff87000000 


0xffffffff88000000-0xffffffffc0000000 
ー-[ odules 


0xffffffffc03c1000-0xffffffffc03c2000 
Oxffffffffc03c2000-0xffffffffc03c3000 
Oxffffffffc03c3000-0xffffffffc03c5000 


一 カ ー ネ ル 再 起動 後 の バ ペー ジテ ー ブ ル 情報 


High Kernel Mapping 
Oxffffffff80000000-0xffffffff9b000000 


Oxffffffff9c000000-0xffffffffc0000000 
ーー-[ Modules ]--- 


Oxffffffffc037c000-0xffffffffc037d000 
Oxffffffffc037d000-0xffffffffc037e000 
Oxffffffffc037e000-0xffffffffc0380000 


家 3 カー ネル 3.15 で アク セス 権 が 変更 され た procfs の ファ イル 


/proc/ プロ セス ID/pagemap 


プロ セス の ペー ジテ ー ブ ル 情 報 
/proc/ プ ロ セス ID/personally プロ セス の 実行 ドメイン 情報 
/proc/ プ ロ セス 1D/stack プロ セス の スタ ッ ク ト レー ス 情 報 
/proc/ プ ロ セス 1D/syscall プロ セス が 呼び 出し た シス テム コー ル 情 報 


田 カ ー ネ ル 3.14 ま で の パーミッション 


$ 1s -] /proc/se1f/{pagemap,persona11ty,stack,sysca]1} 品 
・ 1 sueyasu sueyasu 0 7 月 25 21:37 /proc/se1f/pagemap 
7 月 25 21:37 /proc/se1f/persona11ty 
・ 1 sueyasu Sueyasu 0 7 月 25 21:37 /proc/se1f/stack 
ー『ーー ド ーーPーー。 1 SUeyaSu Sueyasu 0 7 月 25 21:37 /proc/se1f/sysca11 


誰 で も 読み 出せ る パー ミッ ショ ン に な っ て いた 
回 カー ネル 3.15 以 降 の パーミッション 


$* 1s -1 0R227301DSDRRD' persona11ty,stack,sysca11} ロ 
sueyaSu sueyasu 0 7 月 25 21:37 /proc/self/pagemap 
sueyasu sueyasu 0 7 月 25 21:37 /proc/self/personal1ty 
sueyasu sueyasu 0 7 月 25 21:37 /proc/self/stack 
sueyasu Sueyasu 0 7 月 25 21:37 /proc/self/sysca11 


プロ セス の 実行 権限 だ け で 読み 出せ る パー ミッ ショ ン に 変更 され た 


図 22 カー ネル 3.14 と 3.15 で の パー ミッ ショ ン の 違い 
kASLR 機 能 の 効果 を 低下 させ な いよ う 、 カ ー ネ ル 3.15 以 降 で は 重要 な シス テム 情報 を 提供 する procfs フ ァ イ 
ル の パー ミッ ショ ン を 変更 し た 。 


表 4 シス テム 情報 を 隅 す た め の 主 な カー ネル 機能 


dmesg_restrict 2 ー ネ ル ログ の 参照 を 制限 する 擬 能 。 カ ー ネ ル 
2.6.37 以 降 で 利用 で きる 。/proc/sys/kemel/dmesg_restrict フ ァイル に 視 
を 書き 込む と 有効 に な る 
8 ファ イル シス テム を 通じ た カー ネル ボイン タ 情 報 の 提供 を 制限 する 機能 。 
カー ネル 2.6.38 以 降 で 利用 で きる , RA rrestrict フ ァイル に [1 
ある い は 「2] を 書き 込む と 有効 に な る 。 "大 きい ほど 制限 が 大 きく な る 。 
Ubuntu 14.04 LTS で は 既定 で 「1] が 設定 され る 


kptr_restict 


GLB x pte 
GLB NX pte 
6LB NX pte 


GLB x pte 
GLB NX pte 
GLB NX pte 


図 21 kASLR の 動作 を ペー ジテ 
ー ブ ル ダン プ 機 能 で 確認 


pmd カー ネル の ペー ジテ ー ブ ル ダン プ 横 能 


を 使っ て 、KASLR 機 能 を 有効 に し た 
x86_64 版 カー ネル の メモ リー 配置 を 調 
べた 結果 。 カー ネル イメ ー ジ の | 
ア の アド レス や 、 modules エ リア の 先頭 
に ある 空き スペ ー ス の サイ ズ が 、 カ ー ネ 
ル 起 動 の た びに ラン ダム に 変化 する こ 
と を 確認 で きる 。 


時 で きる 「4001 ( ) に 変更 し 
て いま す 。 実際 に 、 /proc/self 以 下 
に ある ファ イル の パー ミッ ショ ン を 
調べ て み ま し ょ う 。 カ ー ネ ル 3.14 ま 
で は 図 22 上 の よう に 、 カ ー ネ ル 315 
以降 で は 図 22 下 の よう に な っ て いる 
こと を 確認 で きる は ず で す 

な お 、 カ ー ネ ル が 提供 する 情報 を 
制限 する 機能 まこ れ ま で に も いく つ 
か 実装 きれ て きま し た 。 主 な 機能 に 
ょ 表 4 に 示し た 2 つが あり ます 。Ub 
untu 14.04 LTS は この うち 、 カ ー ネ 
ル の ポイ ンタ 情報 (メモ リー アド レ 
ス 情 報 ) を 参照 で きる ユー ザー を 制 
限 す る 「kptr_restrictl 機能 を 既定 
で 有効 化し て いま す 。 一般 ユ スー ザー 
権限 と 管理 者 権限 で 、/proc/modul 
es ファ イル の 内 容 を 表示 させ て みて 
くだ きい 。 管理 者 権限 の 場合 だ け 正 
確 な 情報 が 表示 され 、 一 般 ユ ー ザ ー 
権限 の 場合 に は ダミ ー の アド レス が 
表示 され ます 。 な お 、kprt_restrict 
機能 を 有効 に する 設定 は 、「/etc/sy 
sctld/10-kernel-hardening.conf| フ 
テイ ル に 記述 きれ て いま す 。 


- エ ーー 


人 会 、 


月 最新 カー ネル の 技術 を 見 る 


2) 呈 ご 炒 
@ @ 

カー ネル 3.16 は 2014 年 8 月 3 日 に 
リリ ー ス され まし た 。 カー ネル 3.15 
が 提供 され て か ら 約 2 カ月 で アッ プ デ 
ー ト され まし た 。2014 年 9 月 下旬 時 
点 で は 、 カ ー ネ ル 3.16.3 に 更新 され 
て いま す 。 カーネル 3.16 に は 、 主 に 
表 1 に 示し た 新 機能 や 改善 が 追加 さ 
れ て いま す 。 

目立つ も の と し て は 、 ま ず グ ラフ ィ 
ックス 機能 の 性 能 改 善 で す 。 米 NVID 
IA 社 、 米 Intel 社 、 米 Advanced Mic 
ro Devices (AMD) 社 の 主要 な グラ 
フィ ックス チッ プ に 対し て 以下 の よ 
うな 改良 が 施さ れ て いま す 。 

NVIDIA 社 製 グ ラフ ィ ッ クス チッ プ 
に は 、 動 作 周波 数 (クロ ッ ク ) を 変 
更 で きる 機能 が あり ます 。 こ の 動作 
周波 数 を 既定 の 値 か ら 変更 する こと 
で 大 きく 性 能 を 向上 で きま す 。 カ ー 
ネル 3.16 に 含ま れる オー プン ソー ス 
ドラ イ バ 「Nouveau] で は 、 こ の ク 
ロッ ク を 再 設定 する 機能 が 加わ っ て 
いま す 。 

また 完全 で は あり ませ ん が 、GK2 
0A と GK110B に 対応 し まし た 。 ベ ン 
ダー 製 ド ライ バ を 使わ な く て も 、 こ 
れ ら の チッ プ を 搭載 する ハー ドウ エ 
ア が 使え る よう に な り ま し た 。 ちな み 
に 、GK20A は 、 同 社 の 小型 CPU ボ 
ー ド [Jetson TK1 開発 キッ ト ] ( 写 
真 1) の SoC* な ど に 内 蔵 さ れ て いる 
グラ フィ ックス チッ プ で す 。 

Intel 社 製 グ ラフ ィ ッ クス チッ プ の 
ドラ イ バ に は 、 ビ デオ メモ リー に ユー 
ザー 空間 の ペー ジ を マッ ピン グ す る 
機能 が 加わ り ま し た 。 ユ ー ザ ー 空 間 
か ら カ ー ネ ル 空間 に テク スチ ャ ー 
どの デー タ を コピ ー せ ず に グラ フィ 
ックス チッ プ に 直接 渡せ る よう に な 
る な ど 、 レ ンダ リン グ 処 理 を 効率 化 
で き 、 性能 が 向上 し ます 。 こ の ほか 、 
Atom コア 内 蔵 の SoC (Cherryview) 


eo | グラ フィ ックス 性 能 が アッ プ 
⑱ | ファ イル シス テム を 大 幅 改 良 


に 搭載 され る グラ フィ ックス チッ プ 
(Broadwell) が サポ ー ト され まし た 。 

AMD 社 製 グラ フィ ックス チッ プ 
の ドラ イ バ で は 、 グ ラフ ィ ッ クス チ 
ッ プ を 含む CPU「APU」 に お いて 
BAPM (Bidirectional Application Po 
wer Management) を 有効 に し まし 
た 。BAPM は CPU と GPU の 電源 管 
理 機能 で あり 、APU に 搭載 され る グ 
ラフ ィ ッ クス チッ プ 「Hadeon] の 性 
能 が 向上 し ます 。 

も う 一 プ 目 立つ も の と し て は 、XFS 
の 改良 で す 。XFS は 古く か ら あ る フ 
ァイル シス テム で す が 、 商 用 Linux デ 
ィ ス トリ ビュ ーション の 新 バ ー ジ ョ 
ン 「Red Hat Enterprise Linux 7] で 
標準 採用 され て 現在 注目 され て いま 
す 。 カー ネル 3.16 で は 、 使っ て いな 
い i ノ ー ド を 高速 検索 する た め の デ ー 
タ 構 造 (B+ tree) が XFS に 追加 され 
まし た 。 こ れ に より 、 フ ァイル 作成 
時 な ど に 実施 され る i ノ ー ド の 割り 当 
て 処理 が 高速 修 さ れ ま し た 。 

表 1 に は 示し て いま せん が 、 次 世代 
ファ イル シス テム 「Btrfs] の 改良 も 
数 多く 加わ っ て いま す 。Btrfs は 、 主 
要 な ディ スト リ ビ ュ ーション に 採用 
され て いる ext4 に 代わ る ファ イル シ 
ステ ム と し て 期待 され て いま す が 、 ま 
だ 開発 段階 で 実用 に 向き ませ ん 。 カ 


内 


米 NVIDIA 社 製 グ ラフ ィ ッ クス の 改善 
応 し た 


ル 3.16 で 追加 され た 新 機能 や 改良 


写真 1 米 NVIDIA 社 の 小型 CPU ボー ド 
[Jetson TK1 開発 キッ ト 」 
SoC と し て 「Tegra K1] を 搭載 する 。 


写真 2 「http://kemelnewbies.org/] の サ 
イト 


各 バ パー ジョ ン ご と の 新 横 能 や 改良 点 が まとめ られ 
て いる 。 


ー ネ ル が アッ プ デ ー ト され る た びに 
改善 され て いる の で 、 注 目 し て お く 
と よい で し ょ う 。 

以上 の よう な 、 バ ー ジ ョ ン ご と の 
カー ネル の 新 機能 を 手早く 知り た け 
れ ば 、「http://kernelnewbies.org/」 
(英語 ) が 便利 で す (写真 2)。 と て 
も 分 か りや すく 、 新 機能 や 改善 点 が 
まとめ られ て いま す 。 
【SoC】 System on a Chip の 略 で す 。 CPU コ 


ア を 含む コン ピュ ー タ の 動作 に 必要 な 周辺 回 路 
を 1 つの チッ プ ( 乗 子 ) に まとめ た も の で す 。 


オー プン ソー ス ド ラ イ バ 「Nouveau] の パフ ォ ー マ ン ス を 
大 幅 に 改善 し た 。 不 完全 な が ら GK20A と GK110B に 対 


2 ックス ドラ イ バ ビデ オメ モリ ー に ユー ザー ペー ジ を マッ ピン グ で きる よう 
の 改 


に な っ た 
リソー ス 管 理 の 改 療 


統一 され た cgroup 階 層 で 、CPU や ディ スク 、 メ モリ ー を 


管理 で きる よう に な っ た 


XFS の i ノ ー ド 割り 当て の 高速 化 


空き 1 ノー ド を 管理 する デー タ 構 造 が 加わ っ た 


64 ビ ピッ ト ARM 上 で Linux を 直接 起動 64 ビ ッ ト ARM に お ける UEFI ス タブ が サポ ー ト され た 


IPv6 の 性 能 向上 IPv6 で 通信 する サー バー 向け の 「TCP Fast Open] モー 
ド が 加わ っ た 

の の haney の 22 ブ 2 ッ Atom コア を 内 蔵 す る SoC (Chermyview) の グラ フィ ッ 

クス サポ ボー クス が サポ ー ト され た 


APU に 提 き れる グラ フィ ックス チッ CPU と GPU の 電源 管理 機能 「BAPM] を 有効 に し た 


プ 「Radeon」 の 性 能 が 向上 


っ h、 症 答 半 4 


回 ま 、 閉 、| 


Linux カー ネル の 開発 が 始ま っ て 
約 23 年 が 経ち まし た が 、 Partl で も 
紹介 し た よう に 今 で も 活発 に 新 機 
、 能 の 開発 や 改良 が 加え られ て いま 
す 。 最 近 で は 、 組 み 込み 機器 向け の 
Linux が 注目 され て いる の で 、 そ れ 
に 対す る 新 機能 や 改良 も 多数 あり 
ます 

これ ら の 新 機能 や 改良 の 中 に は 面 
白い も の が た くさ ん あり ます 。 ま た 、 
将来 有望 な 仕組 み も 多数 で す 。 そこ 
で 、Part2 で は 「 メ モリ ー 管 理 」「 フ 
ァイル シス テム 」 「SSD 対 応 ]」「 ト レ 


さ ー ス 機能 」「 省 電力 」「 仮 想 化 」「 リ 
ソー ス 管 理 |「 モ キュ リティ 」 の 8 つ 
の 分 野 に 分 け て 、 い くつ か の 機能 を 


紹介 し ます ( 図 1) 

メモ リー 管理 で は NUMA や 負荷 、 
利用 効率 、 キ ャ ッシュ に 関わ る 機能 
を 、 フ ァイル シス テム で は 将来 期待 


ー 管 理 


メモ リー 管理 (/mm デ ィ レ クト リ 
ー) は 、Linux カー ネル が 備え る 機 
能 の 中 で は 複雑 で それ 自体 が 面白 い 
も の で す 。Linux カー ネル が アッ プ 

ー ド する た びに 、 メ モリ ー 管 理 に 


回 司 = 凍 」 


きれ て いる ファ イル シス テム と 、 比 
較 的 新しく 登場 し た ファ イル シス テ 
ム を 解説 し て いま す 

トレ ー ス 機能 は 、 カ ー ネ ル の 状 
克 を 監視 する に は 欠か せな いも の で 
す 。 第 2 章 Part2 SystemTap と 
いう トレ ー サ ー を 使い まし た が 、 そ 
れ を 含め て で いく つか の トレ ー サ ー を 
紹介 し て いま す 

SSD 対応 で は 寿命 を 延ばし た り 、 
効率 を 高め た りす る 機能 を 、 省 電力 

で は きら に 電力 消費 を 抑え る 機能 
を 解説 し ます 

仮想 化 や リソー ス 管 理 で は 現在 
の 動向 も 含め 、 注 目 し た 機能 を 紹 
介し て いま す 。 大 規模 な シス テム で 


Linux を 使い た いな ら 、 ぜ ひ お 読み 
だ きい 
セキュ リティ で は 最新 の ファ イア 


ウォ ー ル 機能 を 解説 し まし た 。 従来 


Memory 「anage 


は 多く の 変更 が 加え られ て いま す 。 
その 中 で 、 こ こ 2-3 年 の 間 に 追 加 
され た 新 機能 や 改良 を 対象 に 面白 
いも の と し て 次 の 5 つ ビ ピックアップ 
まし た ぁ 


Linux カ ー ネ ル は アッ プ デ ー ト され 
る だ びに 多く の 新 機能 や 改良 が 加え 
られ て いま す 。 それ ら の 中 に は 、 面白 
い 機 能 が た くさ ん あり ます 。「 メ モリ 
一 管理 「 フ ァイル シス テム 」「SSD 対 
応 「 ト レー ス 機 能 」「 省 電力 」「 仮 想 化 」 
『 リ ソー ス 管 理 」「 セ キュ リティ 」 の 8 
つの 分 野 に 分 け て 、 い くつ か の 注目 
し て お きた い 機能 を 紹介 し ます 。 


の iptables に 代わ る も の で す の で 、 


ぜひ 一 読 く だ さい 

ゃ 自動 NUMA バ ラン ス etickless 動 作 
ゃ メモ リー ホッ ト プ ラ グ 

ゃ メモ リー 負荷 の 通知 
ekswapd と shrinker の 改善 

ゃ Zram と zSWap * ネ スト 

ゃ Btrfs CgrOUP 
*F2FS ゃ wsystemd 

ゃ discard 対 応 *nftables 

ゃ る キャ ッシュ 


sFtrace 

s Perftools 

* SystemTAP 

図 1 Part2 で 紹介 する Linux カ ー ネ ル の 機能 
「 メ モリ ー 管 理 ][「 フ ァイル シス テム J「SSD 対 応 ]「 ト 
レー ス 概 能 」「 釧 電力 」「 仮 想 化 ]「 リ ソー ス 管 理 「 セ 
キュ リティ 」 の 8 つの 分 野 に 分 け て 解説 。 


自動 NUMA バ ラン ス 

人 メモ リー ホッ ト プ ラ グ 
memory 負荷 の 通知 機能 の 追加 
@⑨kswapd、shrinker の 改善 
@⑧zram と zswap 


で は 、 こ れ ら を 順番 に 見 て いき ま 
し ょ う 
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NUMA マ シン を 
高速 化す る 


NUMA (Non Uniform Memory 
Architecture) は 、 マ ル チ プ ロモ キッ 
シン グ に お ける 共有 メモ リー の アー 
キテ クチ ャ ー で す 。 CPU と メモ リー 
が 1 モット で 1 ノー ド と な り ま す が 、 
CPU か ら メ モリ ー へ の アク セス は ノ 
ー ド を また いで 実行 で きま す 。 そ の 
た め 、 各 CPU と メモ リー の 位置 に 
よっ て アク セス 速度 が 変わ り ま す 。 
プロ モス の CPU 配置 と メモ リー の 
位置 を 合わ せな いと 速度 が 高まり ま 
せん 

従来 は 手動 で の 位置 調整 で し た 
が 、 自 動 NUMA パ ラン ス で は 、 カ か 
ー ネ ル 側 で 自動 的 に 位置 調整 し ま 
す ( 図 1)。 こ れ に より 、 管 理 者 の 
シス テム 設計 が 楽に な か り 、 か つ 動 的 
な ジョ ブ の 変化 に 対し て 自動 的 に 最 
適 な CPU/ メ モリ ー 配 置 が 可能 に な 
り ま す 。 

自動 NUMA パ ラン ス は 、 CPU ス 
ケ ジ ュ ー ラ ー に プロ モス の メモ リー 
配置 の 情報 を 組み 込み 、 最 適 な CPU 
位置 を 決定 し ます 。 CPU が 移動 し 
た 場合 に は 、 メ モリ ー の 位置 を CPU 
位置 に 自動 的 に 追随 きせ ます 。 ペー 
ジテ ー ブ ル を うま く 使 っ て 割り 当て 
後 の メ モリ ー が どう アク セス され て 
いる の か 統計 デー タ を 集め 、 必要 な 
ら メ モリ ー を 移動 きせ 、CPU 位 置 の 
決定 処理 に 状況 を 伝達 し ます (詳し 
く は 付録 の 「 カー ネル ハッ カー が 教 
える Linux メモリー 技術 | も 参照 し 
て くだ さい )。 


稼働 中 に メモ リー を 
抜き 差し で きる 
これ まで 、CPU や メモ リー の ホ 
ッ ト プ ラグ は 、 一 部 の マシ ン の 限定 
的 な 機能 と いう 印象 が あり まし た 。 
し か し 最近 、KVM を は じ め と し た 


プロ セス の CPU と メ 
モリ ー の 距離 が 遠い の 
で 性 能 が 出 な い 状態 


方 法 @ 
問題 解消 の た 。 
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メモ リー を 移動 する 


図 1 自動 NUMA バ ラン ス の 動き 


仮想 化 機能 で サポ ー ト する 動き も 
あり 、 身 近 に 使え る 機能 に な っ て い 
ます 

デバ イス の ホッ トブ プラ グ は 、 USB 
デパ イス の よう に シス テム 起動 中 に 
抜き 挿し する も の で す 。 一 方 、 メ モ 
リー ホッ ト プ ラ グ は 、 メ モリ ー を シ 
ステ ム 起 動 中 に 追加 ・ 削 除 し ます 。 
- 部 の ハイ エン ドサ ー バ ー で サポ ー 
ト し て お り 、 無 停止 で の 部 品 交換 や 
シス テム 増強 が 可能 で す 

メモ リー を 増やす 場合 、 メ モリ ー 
挿入 の タイ ミン グ で ファ ー ム ウエ ア 
か ら の 通知 を 捉え 、 メモリー 管理 シ 
ステ ム の 一 部 再 初期 化 と 統計 数 値 
の 調整 を 実施 し ます 。 メ モリ ー を 減 
ら す 場合 は 、 対 象 の DIMM 上 の デ 
ー タ を 他 の メモ リー に ペー ジマ イグ 
レー ショ ン で 移動 させ 、 使わ れ て い 
な い 状 態 に た っ た と ころ で 、 メ モリ 
ー 管 理 の 関連 オプ ジェ クト を 切り 苑 
し ます 

この 際 、 メモリー を 使わ な いよ う 
に する の が 最大 の 課題 で す 。 ど うし 
て も デー タ 内 容 を マイ グレ ー シ ョ 
ン で き な い デー タ が 存在 する と 、 メ 
モリ ー の 切り 離し に 失敗 し て し まい 
ます 。 ユー ザー デー タ と ファ イル キ 
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ャ ッシュ の デー タ は 、 ほ ほぼ 確実 に 切 
り 離 せる の で 、 こ れ ら の デー タ を フ 
ァ ー ム 的 に 切り 区 し 可能 な メモ リ 
一 範囲 に 集め る よう に する 機能 が 、 
最新 の Linux カ ー ネ ル に 追加 きれ ま 
し た 

た だ し 、 結果 的 に 抜け な い メ モリ 
ーー 範囲 が で き て し まう た め 、 この 現 
在 の 実装 に も 問題 は あり ます 。 今後 
の 発展 に 期待 し まし ょ う 。 

メモ リー ホッ トリ ムー プ は 、 笛 者 
が 2000 年 代 後半 に 取り 組ん だ 機能 
の 1 つ で す 。 一 部 が 未完 成 で 残っ て 
いま し た が 、2012 年 に 筆者 の 後 交 が 
完成 させ て 使え る よう に し まし た 。 
仮想 マシ ン で ある 「QEMU」| の メ 
モリ ー ホ ボット プ ラグ 機能 の 開発 も 進 
め て いま す 。 仮想 マシ ン の メモ リー 
量 を 起動 時 の 初期 設定 に か か わら 
ず 、 増 減 き せる よう な 操作 が 近い 将 
来 可能 に な り ま す 。 


メモ リー 負荷 を 
通知 する 
最新 Linux カー ネル で は 、 メ モリ 
ー 回 収 処理 の 負荷 に 応じ し て ユー ザ 
ー に 通知 きれ る vmpressure 機 能 が 


2M バ イト 分 
スキ ャ ン す る 
kswapd な どの ご と に チェ ッ ク 
メモ リー 回 収 


図 2 vmpressure の 仕組 み 


メモ リー の 
回 収 失 敗 量 


メモ リー の 
スキ ャ ン 量 


ー 60%% 低 レ ベル 負荷 
60% … 95% 中 レベ ル 負 荷 
95% 一 100% 高 レベ ル 負 荷 


回 収 処 理 中 に 直近 2M パ イト の スキ ャ ン 中 の 回 収 率 を チェ ッ ク す る 。 


Lo 


図 3 キャ ッシュ と し て 動作 する zswap 


追加 され て いま す 。 メモリー 回収 処 
理 の ペー ジス キャ ン の 量 に 対す る 回 
収 の 成功 率 を 基 に 、 軽度 の メモ リー 
負荷 重度 の メモ リー 負荷 と いっ 
た 情報 が 通知 され る 仕組 み で す 。 シ 
ステ ム 全 体 や 「memory cgroup*」 
単位 で 監視 で きま す 。 具体 的 に は 、 
「memory.pressure_levell フ ァイル 
で 通知 を 受け 取り ます ( 図 2) 

例え ば 、"KVM の 「 メ モリ ー バ ル 
ー ニ ング *」 と の 組み 合わ せ に よる 
仮想 マシ ン の メモ リー 用 の 自動 制 
御 に 使う " と いっ た アイ デア が あり 
ます 。 ホ スト の 負荷 を 検知 し た ら ゲ 
スト の メモ リー を 減ら し 、 ゲ スト の 
負荷 を 検知 し た ら ゲ スト の メモ リー 
を 元 に 戻し ます 

面白 い 機能 だ と 思う の で 、 ご 
うま く 使 っ て 実装 と 使い 方 が こ な # 
て くる と いい で す . 和 ) 
負荷 に 応じ し て メモ リー 電源 を オン オ 


が 付い た キャ ッシュ と し て 働く 


フ す る よう な 使い 道 が ある か も し れ 
ませ ん 


メモ リー な 効率 的 に 
利用 する 


kswapd は 、 利 用 きれ て いな い メ 
モリ ー を 回 収 し た り 、 メ モリ ー を 
swap に 掃き 出し て メモ リー の 量 を 
回 衝 し た りす る 機能 で す 。 こ れ ま で 
も 継続 的 に 改善 きれ て きま し た が 、 
最近 の サー バー か な メモ リー を 
積 な よう に な っ て きた こと や 「Tran 
sparent huge page*| が 2M バ イト 
の ペー ジ を 要求 する な どの 変化 に よ 
り 、 動 作 の 質 が 落ち て いま し た 。 カ 
ー ネ ル 3.11 で は kswapd の スキ ャ ン 
動作 に 大 き な 変更 が 入り 、 再 調整 さ 
れ て いま す 。 

shrinker は kswapd の 延長 で 動作 
する カー ネル 内 の キャ ッシュ の 回 収 


機能 で す 。 例 えば 、 フ ァイル シス テ 
ム の メタ デー タ (ファ イル の 管理 情 
報 ) の キャ ッシュ や KVM の メモ リ 
ー 管 理 情報 の キャ ッシュ と いっ た 
カー ネル デー タ は いつ で も 捨て られ 
る 場合 が 多い の で す が 、 できるだけ 
メモ リー 上 に 残し て お きた い 情 報 で 
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ッシュ を 捨て させ ます 
カー ネル 3.12 で は イン タフ ェ ー 


ス を 見 直し て 再 設計 し 、 従 来 は 
NUMA を うま く 扱 えて いな か っ た 
改善 、NUMA の ノー ド を 意識 
キャ ッシュ 管理 が 行え る よう に 
な っ て いま す 


人 
Zram と ZsSwap 

コン ピュ ー タ で デー タ を 処理 する 
際 に は 、 処理 対象 と な 
っ た ん メモ リー に 乗せ る 必要 が あり 
ます 。 デ ー タ は アプ リケーション に 

よっ て 生成 さき れ た り 、 デ ィ ス ク か ら 
読み 出 き れ た り 、 ネ ットワーク 経由 
で や っ て きた り し て 大 量 に 存 る 
の に 対し 、 搭載 メモ リー は 少量 に と 
どまり ます 。 そ こ で 、 メモ リー に ど 
ん な デー タ を 乗せ る の か 、 調整 
要 に な り ま す 

メモ リー に 乗せ る デー タ の 選択 を 
アプ リケーション 側 で コン トロ ー 
する こと も あり ます が 、 通常 は 主 に 
OS が その 役割 を 担い ます 。 い っ た 
ん メモ リー に 乗っ た デー タ に つい て 
は 、 メ モリ ー 上 に 残す デー タ と 、 メ 
モリ ー か ら 捨 て る デー タ に 分 けら れ 
ます 。 こ こ で 、 後 者 の メモ リー か ら 
捨て る デー タ の 処理 に つい て 考え て 
み ま し ょ う 。 

デー タ は その 特性 か ら 、 大 きく 2 
つ に 大 別 で きま す 。 1 つ は 、 デ ィ ス 
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ク や ネッ トワ ー ク 由来 の も の で 、 こ 
れ ら は メモ リー か ら デ ー タ を 捨て た 
と し て も 、 もう一度 同じ デー タ の 取 
得 が 可能 で す 。 と は いえ 、 デ ー タ 
の 再 取得 に は 相応 の コス ト が か か り 
ます 。 

も う 1 つ は 、 ア プリ ケー ショ ン 自 
身 が 生成 する デー タ で す 。 多 く の 場 
合 、 後 者 の デー タ を 無頓着 に 捨て 
る と 、 プ ログ ラム が 正しく 動作 し な 
く な っ て し まい ます 。 そ こ で 、 そう 
し た 事態 の 発生 を 避け る た め 、 アプ 
リケーション が 生成 し た デー タ に つ 
いて は 、 メ モリ ー の 中 身 を ディ スク 
に 退避 する スワ ッ プ デバ イス を 利用 
し て 、 一 時 的 に メモ リー か ら 排 除 し 
ます 

つま る と ころ 、 空 き メ モリ ー が 
必要 に な っ た 際 に は デー タ を 捨て る 
か 、 どこ か へ 退避 する わけ で す 。 た 
だ し 、 最 近 は CPU の 性 能 向上 に 伴 
っ て CPU リソー ス が 余り が ちな こ 
と か ら 、 デ ー タ を 捨て た り 、 退 遊 し 
た りす る 代わ り に 、CPU を 使っ て 
デー タ を 圧縮 する こと で 空き メモ リ 
ー を 作り 出す 「zram] や 「zswap] 
機能 が 用 意 き れ ま し た ( 図 3)。 以 
下 で は 、CPU が 十分 に 速い 場合 に 効 
果 を 発揮 する 、 こ れ ら 2 つの 機能 に 
つい て 説明 し ます 。 


RAM デ ィ ス ク に する 
Zram 


Zram は 、 物 理 メ モリ ー の 一 部 を 
「 圧 縮 ・ 伸 張 機能 を 搭載 する RAM 
ディ スク (仮想 ディ スク )] に 仕立 
て る 機能 で す ( 図 4) 

その RAM デ ィ ス ク を スワ ッ プ デ 
バイ ス と し て 設定 する こと に より 、 
メモ リー の 内 容 を 圧縮 し て 退 遊 で 
きる よう に な り ま す 。 ま た 、tmpfs 
(メモ リー 上 に 作成 可能 な ファ イル 
シス テム ) な どの 代替 と し て 用 いる 
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図 4 RAM デ ィ ス ク と し て 動作 する zram の 概要 


zram ブ ロッ ク デ バイ ス を 作る 


き modprobe zram num_devfice- 4 品 


(これ に より 、/dev/zram0, /dev/zraml , /dev/zram2, /dev/zram3 の 4 つの デバ 


イス が 作成 され る ) 


次 の バラ メー ター を 設定 
/sys/block/zram0/d1sks1ze 
/sys/block/zram0/comp_algor1thm 


/sys/b1ock/zram0/max_comp__Streams 


(最大 容量 を 指定 ) 
(圧縮 方 法 を 指定 ) 
(圧縮 を 担当 する スレ ッ ド 数 を 指定 ) 


スワ ッ プ デバ イス や ファ イル シス テム と し て 使う 


# mkswap /dev/zram0: swapon /dev/zram0 器 


# mkfs.ext4 /deVv/zram1: 
図 5 zram の 使い 方 の 例 


(例え ば 、 zram を プロ ッ ク デ バイ ス 
と する ext4 フ ァイル シス テム を マウ 
ント する ) こと に よっ て 、 メモリー 
消費 量 を 抑 を られ ます 。 こ れ ら の 使 
い 方 を 図 5 に 示し まし た 
Linux で は 長い 間 、zram が 「 ス 
テー ジン グ 」 (正式 採用 され る 機能 
の 候補 ) に な っ て いま し た 。2014 年 
3 月 30 日 に リリ ー ス され た カー ネル 
3.14 で 、 よ う や く プ ロッ ク デ バイ ス 
の 正式 な ドラ イ バ に な り ま し た 。 テ 
レビ な ど 組 み 込み シス テム で 実績 を 
持つ ほか 、Android や Chrome OS 
に 搭載 きれ た こと な ど が 後押し に な 
っ て 、 正 式 採用 きれ た の で す 
- 般 に サー パー や デス クト ッ プ で 
は 、 メ モリ ー の 退 族 域 と し て スワ ッ 
プ デ バ イス を 設定 し ます 。 し か し 、 
組み 込み シス テム な ど フ ラッ シュ ヌメ 
モリ ー を 主 な ディ スク 媒体 と する シ 
ステ ム で は 、 (1) 書き 込み 速度 が 遅 
い 、(2) フラ ッシュ メモ リー の 寿命 
を 大 幅 に 縮め る 、 と いっ た 問題 が あ 


mount /dev/zram1 /tmp 器 


(スワ ッ プ を 作成 し て 有効 化 ) 
(/tmp を zramE) 


る こと か ら 、 ス ワッ プ デ バ イス の 利 
用 は 好ま し く あ り ま せん で し た 。 そ 
こ で 、 そう し た シス テム で は 正式 採 
用 前 で ある に も か か わら ず zram が 
利用 され て いた の で す 。 


安定 的 な 性 能 を 期待 で きる 
提案 者 に よる と 、 テ レビ な ど で ジ 
ッ タ ー (処理 の プレ ) が 問題 に な る 
ケー ス で は 、 ス ワッ プ で の 1I/O よ り 
も 、CPU リソー ス を 活用 し て 圧縮 ・ 
伸張 する 方 が 安定 的 な 性 能 を 期待 
で きる そう で す 。 実際 、 Chrome OS 
の 開発 者 が 「 イ ンタ ラク ティ ブ な 処 
で の ハー ド デ ィ スク へ の スワ リップ 
は (性 能 に ムラ が 生じ る の で ) 好ま 


【memory cgroup】 リソー ス を グル ー プ 化し 
て 管理 する cgroup 機 能 で 、 メ モリ ー を グル ー 
プ 化 し た も の 。 

【 メ モリ ー バ ルー ニン グ 】 仮想 マシ ン に 割り 
当て る メモ リー 量 を 動 的 に 変え る 衝 能 。 
【Transparent huge page】 透過 的 に 大 
Upo0tg232C2S 


術 が ある 


、 
N 


注目 の 人 や 次 世代 舟 を 知る 0 


図 6 zswap の 仕組 み 


し く な い 。 一 方 、zram で は 十分 な 
性 能 が 提供 きれ る 」 と コメ ント し て 
いま す 。 

また 、 ク ラウ ド で は 仮想 マシ ン 
の ディ スク が 物理 的 に どこ に ある の 
か 分 か ら な い の で 、 場合 に よっ て は 
zram を 使っ た 方 が スワ ッ プ が 安定 
的 に 動作 する こと が あり ます 。 こ の 
ほか 、zram を 使え ば ディ スク レス 
シス テム に スワ ッ プ デパ イス を 設け 
られ る よう に な り ま す 。 

zram を 利用 する 際 に は 、 通 常 の メ 
モリ ー と zram に 使う メモ リー の 比 
率 を どう する か が ポイ ント に な り ま 
す 。Chrome 0S の 開発 エン ジニ テア が 
実践 する 、「 圧 縮 率 を 173 と 仮定 し 、 
シス テム メモ リー の 1.5 倍 の zram デ 
バイ ス を 作る 」 (http://wwwrspin 
ijcsnet/lists/linux-mm/msg57717. 
html) と いう や り 方 が 、1 つ の 日 安 
に な り そ う で す 。 例 えば 、4G バ パイ 
ト の シス テム メモ リー に 対し て 、6G 
パイ ト の zram デ パイ ス を 作成 し 、 
Zram が いっ ぱい に な っ た 際 に は 6G 
バイ ト =3 =2G バ イト を zram、 残 
り の 2G バ イト を 通常 の メモ リー と 
し て 使う よう に し ます 。 


あふ れる と ディ スク に 書き 出す 


zswap は swap の キャ ッシュ の よう に 働く 


キャ ッシュ と し て 
動作 する zswap 

ZSwaD も メモ リー の 圧縮 技術 で す 
が 、 前 述 の zram と は 動作 が 少し 異 
な り ま す 。zswap は スワ ッ プ デバ パイ 
ス と メモ リー の 間 で キャ ッシュ と し 
て 動作 し ます ( 図 6)。 

ZSwaD で は メモ リー か ら ス ワッ プ 
に デー タ を 追い 出す 際 、 内 容 を 圧縮 
し て キャ ッシュ し ます 。 圧縮 され た 
デー タ は LRU (Least Recently Us 
ed) 方 式 で 管理 きれ 、zswap の 容 
量 (/sys/module/zswap/Daramete 
rs/max_pooLpercent) に 収まら な 
いと き は 該当 デー タ を 伸張 し て スワ 
ッ プ デバ イス に 書き 出し ます 。 ス ワ 
ッ プ か ら デ ー タ を 読み 出す 際 は 、 ま 
ず キ ャ ッシュ に 圧縮 済み の デー タ が 
な いか どう か 検索 し 、 あ れ ば キャ ッ 
シュ か ら 、 な けれ ば 実 スワ ッ プ デバ 
イス か ら 直 接 読 み 出 し ます 。 

ZSwap の 主 な 役目 は 、 ス ワッ プ デ 
パイ ス へ の 1I/O の 軽減 で す 。 メ モリ 
ー に 余裕 が な い サ ー バ ー や 、 仮想 化 
に よっ て サー バー を 集約 し た シス テ 
ム に お いて 、 有用 な 機能 だ と 考え ちら 
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れ ま す 。 現在 の 弱点 と し て 、 zswap 
か ら デ ィ ス ク に 追い 出す 際 の 1/O が 
不 均一 な た め 、 思っ た よう な 性 能 が 
出 な いこ と が 挙げ られ ます 。 


Zram の 方 が 素直 で 使い や すそ う 

筆者 は 、 個 人 的 に は zram の 方 が 
素直 で 使い や すく 、 プ ロッ ク デ パイ 
ス で ある が ゆえ に 用 途 も 広い よう に 
思い ます 。zswap な ら ス ワッ プ を ハ 
ー ド ディ スク に 追い 出せ ます が 、 通 
常 の シス テム で ハー ド デ ィ スク へ の 
追い 出し が 有利 に 働く こと は ほとん 
ど な い で し ょ う 。 

採用 する 圧縮 技術 に よっ て 、| 如 
いけ と 圧縮 率 が 低い ] も の や 、 その 
逆 に 「 遅 いけ ど 圧 縮 率 が 高い ] も の 
が あり ます 。zswap も Zram も 、 デ 
フォ ルト で は 「lzo] アル ゴリ ズム を 
利用 し ます 。 

筆者 は 圧縮 技術 に 詳し いわ け で 
は な いで す が 、 例 えば zram で 選択 
で きる も う 一 つの アル ゴリ ズム で あ 
る 「lz4| は 伸長 如 度 が LZO の 3 倍 
以上 で 、 圧縮 率 は lzo よ り 少 し 悪い 
くら い の よ う で す (http://code.goo 
gle.com/p/124) 

アー キテ クチ ャ ー に よっ て は ハー 
ドウ エア に よる アシ スト を 受け る こ 
と で 、 圧 縮 技術 が 今 より 使い や すく 
な る か も し れ ま せん 。 


Linux に は 、 ネ ットワーク ファ イ 
ル シ ス テム を 除い て も 10 以 上 の フ 
ァイル シス テム が 実装 され て いま 
す 。 例 えば 、 現 在 広 く 使わ れ て い 
る 「ext4] や 、 長 期間 使わ れ て いる 
「ext3] や 「XFS」、 比 較 的 に 新しい 
「NILFS2] や 「Btrfs」 「F2FS」 な 
ど で す 。 中 で も Btris は 、ex(4 に 代 
わる ファ イル シス テム と し て 注目 さ 
れ て いま す 。 ま た F2FS は 、 2013 年 
2 月 に リリ ー ス と 比較 的 新しい ファ 
イル シス テム で す 。 こ の 2 つが 備え 
る 機能 を 詳し く 紹介 し まし ょ う 


スナ ッ プ ショ ッ ト や 
人 IDWeeei っ 
TBtrfs」 

Btrfs は Linux の 新しい ファ イル 
シス テム で す 。 主 要 開発 者 の 転職 先 
で ある 米 Facebook 社 が 試験 的 に デ 
プロ イ し 始め た り 、2014 年 
ー ス 予定 の openSUSE 132 で デフ 
ォ ル ト フ ァイル シス テム と し て 採用 
され る 見 通し だ っ た り と 、 要 注目 の 
ファ イル シス テム と いえ ます 

Btris は 、 ex(3/4 や XFS と いっ た 
ファ イル シス テム と は 異な る 技術 が 
使わ れ て お り 、 次 の よう な 機能 を 備 
えて いま す 


目玉 機能 の 
スナ ッ プ ショ ッ ト 


Btrfs の 開発 が 始ま っ た 当時 、Lim 


ux で は 一 般 に ext3 が 使わ れ て いま し 
た 。ext3 は 安定 的 に 動作 する も の の 、 
基本 的 な デザ イン が 30 年 以上 も 前 の 
も の で ある こと か ら 、 拡 張 が 容易 で は 
あり ませ ん で し た 。 そ こ で 、Btrfs の 
開発 者 で ある Chris Mason 氏 は 、「 フ 
ォ ル トト レラ ント | 自動 修復 ] [ 簡 
単 操作 ] に 重き を 置い た 高 機能 な フ 
ァイル シス テム を 「Copy-on-Write」 
(CoW : 更新 時 に 元 デ ー タ を 変更 せ 
ず 、 新 規 デ ー タ を 作成 する こと ) と 
の 親和 性 が 高い 「B ツ リー の 拡張 版 」 
を 用 いて 実装 する こと に し まし た 

そう し て 作ら れ た Btrfs の 特徴 と 
し て 、1 番 に 挙げ られ る 目玉 機能 が 
スナ ッ プ ショ ッ ト で す 。 人 は いく ら 
注意 を 払っ て も 、 別 の ファ イル を 削 
除 し て し まう 、 誤 っ た ファ イル を 更 
新 し て し まう と いっ た うっ か り ミ ス 
か ら 完 全 に 逃れ られ る も の で は あり 
ませ ん 。 も ちろ ん 、 定 期 的 に バッ ク 
テッ プ を 取っ て お け ば 、 ある 程度 そ 
うし た 際 の 披 害 を 軽減 で きま す 。 と 
は いえ 、 完全 な パッ クア ッ プ を 頻繁 
に 取る の は 現実 的 で は あり ませ ん 。 
ディ スク 容量 が 食い つぶ され る 上 、 
時 間 も か か る か ら で す 。 

差分 バックアップ な ら 少 し は 現実 
感 が わい て きま す 。 し か し な が ら 、 
タイ ム ス タ ン プ の 更新 に よっ て その 
ファ イル 全体 の どこ か が 更新 され た 
こと が 分 か る だ け な の で 、 結局 は フ 
テ ァイル 全体 を ス え キ ャ ン す る こと に な 
っ て 時 間 が か か り ま す 。 パ ッ ク ア ッ 
プ 頻 度 の 高まり に つなが り に くい の 
が 実情 で す 。 パ ッ ク ア ッ プ の 頻度 が 
低い と 、 復活 で きた の は いい も の の 
内 容 が 前 日 の も の だ っ た り 、 場 合 に 
よっ て は 1 週間 前 の も の に と ど ま っ 
た り し ます 。 


、 凍 還 N( 導 
” コ 答 、 


こん な に 面白 い 技術 が ある 


一 通 で スナ ッ プ ショ ッ ト を 取得 

Btris で は CoW を 中 心 に 設計 され 
で いる の で 、 フ ァイル シス テム の あ 
る 時 点 で の コピ ビー (スナ ッ プ ショ ッ 
ト ) を 容易 に 作成 で きま す (p64 の 
図 1)。 ス ナッ プシ ョ ッ ト は バッ ク 
アッ プ と し て ファ イル を コピ ー す る 
の と 條 っ て 、 処理 が 一 瞬 で 終わ り ま 
す 。 従 っ て 、1 時 間 ご と で も 、10 分 
ご と で も 自在 に スナ ッ プ ショ ッ ト を 
取得 可能 で す 。 

スナ ッ プ ショ ッ ト の 定期 的 な 取 
得 作業 を 効率 化す る ツー ル で ある 
「snapper」 が 独 Su よっ て 開発 
きれ て で いま す 。 こ の ツー ル を 使う 
と 、 定 期 的 な スナ ッ プ ショ ッ ト の 取 
得 や 古い スナ ッ プ ショ ッ ト の 削除 、 
スナ ッ プ ショ ッ ト 間 の 差分 チェ ッ ク 
(dif を 取る ) と いっ た 作業 を 容易 に 
実施 可能 で す (p64 の 図 2) 。 

きら に 、openSUSE な ら snapper 
が パッ ケー ジマ ネジ ャ ー で ある zypb 
per や yum と 統合 きれ て いま す 。 そ 
れ に より 、 シ ステ ム の アッ プ デ ー ト 
前 に スナ ッ プ ショ ッ ト が 自動 的 に 取 
得 さ れ ま す 。 そ し て アッ プ デ ー ト 後 
に 何ら か の 問題 が 発生 し た 際 は 、 ス 
ナッ プシ ョ ッ ト か ら シ ステ ム を 起動 
し て アップ デー ト 前 の 環境 に 簡単 に 
戻せ ます 。 


Linux の 従来 の ファ イル シス テム 
で は 、 基 本 的 に (論理 ディ スタ 構築 
ソフ ト の LVM な ど を 使わ な い 限り ) 
複数 の ディ スク に また が る ファ イル 
シス テム を 作成 で きま せん で し た 。 
つま り 、 フ ァイル シス テム を 一 度 あ 
る ディ スク に 作る と 、 空き が 乏しく 
な っ た と し て も 、 新 し い デ ィ ス ク を 
単純 に 追加 する わけ に は いき ませ ん 
で し た 。 そ うし た 場合 に は 、 容 量 の 
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Bfs で は すべ て の デー タ が B ツ リー で 管理 され る デー タ を 書 


き 換え る 
(qata Al 一 
「data G]) 


新しい root ま で の コピ ー を 作る 
図 1 スナ ッ プ ショ ッ ト 取 得 と デー タ 青 き 換 え 時 の 動作 


$ sudo snapper -C home set-conf1g SYNC_ACL=yes ALLOW_USERSznaota 器 


スナ ッ プ ショ ッ ト を 一 覧 
$ snapper -c home ]11stlhead 品 
Type |# |Pre#| Date 


single 
single 
( 路 ) 

single 
single 


1| 
| Tue 03 Jun 2014 03:27:41 


| Tue 01 Ju] 2014 12:22:39 
| Tue 15 Ju1 2014 12:00:12 


test ロ 


$ snapper -c home ]1stlta1l -n2 器 

single | 894 | | Fr1 25 Ju1 2014 02:48:04 
single | 895 | | Fr1 25 du] 2014 02:48:13 
single | 896 | | Fr1 25 Ju1 2014 02:54:51 


naota | 剛 ) 
naota | 
naota | 


スナ ッ プ ショ 
$ snapper -c home status 894..895 品 
て /home/naota/.htstffle 


* snpper -c home d1ff 894..895 
/home/.snapshots/894/snapshot/naota/.htstfile 
02:48:04.726149754 +0900 
サ + /home/.snapshots/895/snapshot/naota/.histfile 
02:48:13.158946744 +0900 
@@ -10045.3 +10045,4 @@ 
: 1406224054:0:snapper 
1406224062:0:snapper 
1406224084:0:snapper 
+: 1406224093:0:snapper 


図 2 snapper コ マン ド の 利用 例 


2014-07-25 


2014-07-25 


home create 
home fstltatl -n 2 
home create 
home create 


root を 切り 替え て 、 
root #0O か ら は 新しい コン テン ツ が 、root #1 (スナ ッ プ ショ ッ ト ) か 
ら は 元 の コン テン ツ が 見 える 


古い root を 削除 。 


大 き な デ ィ ス ク に ファ イル シス テム 
を 新た に 作成 し 、 現在 の ファ イル シ 
ステ ム か ら コ ピー レ し て 移行 する と い 
っ た 作業 が 必要 で し た 

も っ と も LVM を 使え ば 、LVM の 
仮想 ディ スク 上 に (例え ば exl4 や 
XFS な どの ) ファ イル シス テム を 作 
り 、 そ こ に 複数 ディ スク を 所 避 き させ 
る こと が で きま す 。 そ の 方 法 な ら 、 
空き が 乏しく な っ た 場合 で も 、 デ ィ 


スク を 追加 する こと に よっ て 容量 を 
増やせ ます 。 
た だ し 、 そ れ に は (1) LVM に デ 


ィ ス ク を 追加 、(2) 仮想 アジ ィ ス ク の 
サイ ズ を 拡大 、(3) ファ イル シス テ 
ム の サイ ズ を 拡 と いう 3 つの 作 
業 が 必要 な の で 、 ど うし て も 手間 が 
か か り ま す 。 ま た 、 フ ァイル シス テ 

と ディ スク の 間 に LVM と いう 中 
間 層 の 処理 が 入る み と い う オ ー バ パー へ 
ッ ド も 生じ ます 。 


コマ ンド 1 つ で ディ スク を 追加 
Btrfs な ら 、 そ れ 自 体 が 複数 ディ 
スク を サポ ー ト し て いま す 。 次 の よ 
うに Btrfs コ マン ド 1 つ で ディ スク 
を 追加 し て 容量 を 拡大 で きま す 。 


の Nm) 、 公 、 


ディ スク 1 


ディ スク 2 


図 3 RAID 1 構成 時 、 片 方 の ディ スク の デー タ が 壊れ て も 自動 復旧 する 


ファ イル シス テム か ら デ ィ ス ク を 


取り 外す 場合 も 、 同 様 に 「btrfs de 
vice delete」 コマ ンド を 実行 する だ 
け で 済み ます 。 壊れ そう な ディ スク 
を 取り 替え る 際 は 、「btrfs replace」 
コマ ンド に よっ て 、 対象 デ ィ ス ク 上 
の Bitrfs で 使っ て いる デー タ だ け を 
新しい ディ スク に 効率 的 に コピ ビー で 
きま す 。 


ソフ トウ エア RAID 機 能 も 備わる 

さら に 、 複数 ディ スク を 用 いて ソ 
フト ウエ ア RAID 構 成 に する 機能 も 
備え を て いま す 。 例 えば 、RAID 1 ( ミ 
ラー リン グ ) を 構築 する 設定 に する 
と 、 各 デ ー タ が ファ イル シス テム を 
構成 する 複数 の ディ スク の うち の ど 
れ か 2 つ に 書き 込ま れる よう に な り 
ます 。 

も し 片方 の ディ スク の デー タ が 
壊れ て いた と し て も 、BtrIis が それ 


を 自動 的 に 検出 し 、 も う 1 つ の ディ 
スク か ら デ ー タ を 復旧 し て くれ ま 
す ( 図 3)。 

Btris に は RAID 1 以外 に も 、RA 
ID 0、10 (0 と 1)、 5、 6 の 機能 が 実 
装 さ れ て いま す 。 た だ し 、RAID 5 
と 6 に 関し て は 2013 年 4 月 に 実装 き 
れ た 比較 的 新しい 機能 な の で 、 ま だ 
実験 的 な 段階 に あり ます 


チェ ッ ク サ ム に よる 
異常 検出 ほか 


き て 、 前 項 で BtrisS が 自動 的 に デ 
ー タ が 壊れ た ディ スク を 検出 する と 
書き まし た 。 一般 に 、 完 全 に ディ ス 
ク が 読め な く な っ た 場合 に は 、I/O 
エラ ー の 発生 に よっ て 壊れ た ディ ス 
ク を 検出 で きま す 。 し か し 、 通 常 は 
「 書 き 込 ん だ も の と は 違う 、 お か し 
な デー タ を 返し て くる |」 ディ スク を 
検出 する こと は で きま せん 。 で も 、 
Btrfs な ら そ うし た こと が で きま す 。 

Btrfts で は 、 すべて の デー タ 、 お 


ー 本 Ni 
” コ 移 、 


ディ スク 1 


ディ スク 2 


よび メタ デー タ (ファ イル シス テム 
の 管理 用 デー タ 、inode 情 報 、 デ ィ 
レク トリ ー の 中 身 の 情報 な ど ) を チ 
ェ ッ クサ ム 付 き で ディ スク に 書き 込 
ん で いま す 。 こ の チェ ッ ク サ ム を 使 
うこ と で 、 お か し な デー タ を 検出 で 
きる わけ で す 。 

また 、 チェッ クサ ム が 付い て いる 
こと で 、 不正 な デー タ に よる 影響 が 
広がり に くく な り ま す 。 例 えば 、 フ 
ァイル デー タ を 保存 し て いる アド レ 
ス を 記録 し て いる 部 分 が 、 何ら か の 
原因 で 書き 換 わ っ た と し まし ょ う 。 
チェ ッ ク サ ム が な けれ ば 、 フ ァイル 
シス テム は この 間違っ た アド レス を 
その まま 信用 する し か あり ませ ん 。 
それ に より ユー ザー が 気付 か ぬう ち 
に 、 あ る ファ イル に 書き 込ん だ は ず 
の デー タ が 全く 別 の ファ イル に 書き 
込ま れ て し まう か も し れ ま せん 。 ユ 
ー ザ ー が 異変 に 気付 に た と き に は 、 
ファ イル の 内 容 が 完全 に 失わ れ て 、 
も は や 手 遅れ と いう 事態 に 陥る 恐れ 
が あり ます 。 


チェ ッ ク サ ム が あれ ば 、 フ ァイル 
デー タ を 保存 し て いる アド レス を 記 
録 し て いる 部 分 が 何ら か の 原因 で 書 
き 換 わっ た 場合 で も 、 ア ドレ ス 部 の 
不 整 合 を 認識 し て 被害 の 拡大 を 食 
い 止 め ら れ ま す 。 


圧縮 機能 な ど を 搭載 する 

Btrs に は ほか に も 、「 透 過 的 圧 
親 ] や 「 重 複 排除 ] と いっ た 、 デ ィ 
スク 容量 を 有効 に 活用 で きる 魅力 
的 な 機能 を 備え て いま す 。 

衝 過 的 圧縮 を 「 オ ン 」 に し て (mo 
unt コ マン ド の オプ ショ ン に 「 っ oco 
mpress=lzo」 また は [|-o compress= 
2lib| を 追加 し て ) Btrfs を マウ ント 
する と 、 フ ァイル の 書き 込み 時 に Bt 
rfs が 自動 的 に デー タ を 圧縮 し て デ 
ィ ス ク に 保存 する よう に な り ま す 
アプ リケーション 側 で は 全く 意識 す 
る こと な く 、 デ ー タ 圧縮 に よる ディ 
スク 使用 量 の 節約 と いう メリ ッ ト を 
享受 で きま す 

重複 排除 (dedup) 機能 は 、2 つ の 
ファ イル 間 で 同 2 て い 
る 領域 を 共有 する 、 デ ィ ス ク 
Lo の ア 2 穫 cm も の で す 。 
ZFS で は この 機能 を 有効 に し て いる 
と 常に 自動 的 に 働き ます が (これ を 
「 オ ン ラ イン dedup」 と 呼ぶ )、Btr 
fs に 現在 実装 きれ て いる 「 オ フラ イ 
ン dedup] で は 、 ユ ー ザ ー が 2 つの 
ファ イル の どの 領域 に 対し て 重複 排 
除 を 適用 する の か を 指定 する 必要 が 
あり ます 。 duperemove と いう ツー 
ル が 、 指定 し た 領域 の ウフ ァイル や デ 
ィ レ クト リー を スキ ャ ン し て 重複 し 
て いる 部 分 を 発見 し 、 重複 排除 を 実 
施し ます 。 


効率 的 に 増分 バッ クア ッ プ で きる 
最後 に 効率 的 な パッ クア ッ プ に 

つい て 紹介 し ます 。「btrfs send] コ 

マン ド を 使う と 、 2 つの スナ ッ プ シ 


ョ ッ ト や スナ ッ プ ショ ッ ト 元 と の 間 
の 差分 を パイ ナリ ー 形 式 で ダン プ で 
きま す 。BtrIfS は スナ ッ プ ショ ッ ト 
間 の 差分 を 「 知 っ て いる 」 の で 、 フ 


テ ァイル を 読み 出す こと な く 、 差 分 を 
効率 的 に ダン プ し ます 。 
この 機能 を 使う と 、 リ モー ト へ の 


効率 的 な 増分 バック アッ プ (イン ク 
リ メ ン タル バッ クア ッ プ ) が 可能 に 
な り ま す 。 「/datal ディ レク トリ ー 

を リモ ー ト の backup と いう サー バ 

ー に 定期 的 に 増分 パッ クア ッ プ する 
こと を 考え て み ま す 

最初 に 、 初期 バックアップ を 行 な 
いま す 。 「/backup] と いう スナ ッ 
プシ ョ ッ ト を 作成 し 、「btrfs send] 
で の ダン プ 千 果 を パッ クア ッ プ サー 
パー に 送信 し ます 。 次 の り よ うに コマ 
ンド を 実行 する と 、backup サ ー バ 
ー の 「/server-data/backup] ディ 
レク トリ ー に ロー カル の /data と 同 
じ デ ー タ が コピ ビー され ます 


# btrfs subvolume snapshot -r / 
data /backup 器 

# sync 回 

# btrfs send /backup | ssh back 
up btrfs recefve /server-data/ 
に 」 


パッ クア ッ プ を 取る 際 に も 、 新 し 
い ス ナッ プシ ョ ッ ト を 取る こと か ら 
始め ます 。 こ れ で 前 回 バック アップ 
を 取っ た 際 の スナ ッ プ ショ ッ ト と 、 
新しい スナ ッ プ ショ ッ ト が 手 に 入り 
まし た 。「btrfs send -p] コマ ンド 
で 、2 つ の スナ ッ プ ショ ッ ト の 差分 
を ダン プ し ます 。 

それ を り リモート に 送っ て 、 リ モー 
ト で 次 の よう に 「/server-data/ba 
ckup] か ら 「/server-data/backup- 
new」 を 構築 し ます 。 


# btrfs subvolume snapshot -r / 
data /backup-new ロ 

ま sync 日 

まき btrfs send -p /backup /backup 


、 コ 和 、 ぼ 


SS、 コ 


-new | ssh backup btrfs recefv 
e /server-data/ ロ 


そし て 、 次 の 増分 バッ クア ッ プ に 
備え て 古い スナ ッ プ ショ ッ ト を 削除 
し 、 新しい スナ ッ プ ショ ッ ト を リネ 
ー ム し て お きま す , 


# btrfs subvolume delete /back 
UP 
# mv /backup-new /backup 品 


# btrfs subvolume delete /serve 
r-data/backup 品 

# mv /server-data/backup-new / 
server-data/backup 各 


人 TP 
され た F2FS 

F2FS は [Flash Friendly File Sy 
stem」 の 略 で 、NAND フ ラッ シュ メ 
モリ ー ベ ペー ス の スト レー ジ 用 に 設計 
され た ファ イル シス テム で す 。 従来 
の ファ イル シス テム の 多く は 、 ハ ー 
ド デ ィ スク (HDD) CA 
定 さ れ て お り 、HDD の 特性 に 合 
せ て 最適 化 さ 3 れ て いま し た 。F2FS 
の 開発 元 は 韓国 Samsung グ ルー プ 
で す 

フラ ッシュ メモ リー を 用 いた SSD 
や SD カー ド と いっ た デバ イス は 、 
HDD と は 全く 何 っ た 特性 を 持ち ま 
す 。 こ うし た 最近 普及 し つつ ある 新 
し い デ パイ ス の 特性 に 合わ せ て デザ 
イン され て いる こと が 、 時 時 
大 の 特徴 で す 。 細か く 見 て いく 

ユニ ー ク な 点 が 3 つ あ り ま す ログ 
構造 ファ イル シス テム と いう アー キ 
テク チャ ー を 採用 し て いて 書き 込み 
が シー ケン シャ ル に な る こと 、GC 
(Garbage Collection) を 効率 化す 
る た め に デー タ を 種類 に よっ て 分 類 
(種別 ) し て いる こと 、 複 数 の 書き 
込み 箇所 を 持つ こと で す 。 こ れ ら 3 


つい て 、 詳 し く 見 て み ま し ょ う 。 

まず は 、 ログ 構造 ファ イル シス テ 
ム と は どの よう な も の な の か 説明 し 
ます 。 通常 の ファ イル シス テム で 
は 、 フ ァイル 上 の デー タ を 書き 換え 
る と 、 そ の ファ イル に 対応 する ディ 
スク 上 の プロ ッ ク が 書き 換え られ ま 
す 。 つ まり 、 デー タプ ロッ ク へ の 上 
書き に よっ て 、 フ ァイル デー タ の 書 
き 換 え が 実 現 き れ て いま す 。 

- 方 、 ロ グ 構 造 フ ァイル シス テ 
ム で は 、「 フ ァイル の 指定 部 分 を こ 
の よう に 書き 換え る ] と いう ログ 
デー タ を 新しい 領域 に 書く こと で 、 
デー タプ ロッ ク を 書き 換え る こと な 
く フ ァイル デー タ が 書き 換わり ます 
( 図 4) 。 

ログ 構造 ファ イル シス テム で は 
デー タ を 常に 新しい 領域 に 書き 込み 
ます 。 こ れ に より 、 書 き 込み が 必ず 
シー ケン シャ ル に な る の で 、 書き 込 
み 処 理 の 高速 化 が 期待 で きま す 。 ま 
た 、 同じ 領域 へ の 書き 込み が 起こ ちら 
な い の で 、 急 な 電源 断 が 生じ し た と し 
て も シス テッ 構造 が 壊れ る 心配 は あ 
り ま せん 


同一 特性 の デー タ を 
同じ 場所 に 保存 


ログ 構造 ファ イル シス テム に は 、 
課題 も あり ます 。 1 つ は 、 デ ィ ス ク 
容量 は 無限 で は な い の で 、 常 に 新 し 
い 領域 に 書き 込み 続け る の は 現実 的 
で な いこ と で す 。 こ の 課題 を 解消 す 
る に は 、 古く な っ て も は や 参照 きれ 
な く な っ た デー タ を 削除 し 、 無駄 な 
領域 を 解放 する GC を 行う 必要 が あ 
り ま す 。 

も う 1 つ の 課題 は 「Wandering 
Tree Problem] と 呼ば を る も の で 
す 。 多 く の フ ァイル シス テム で は 、 
デー タ 管 理 用 に ディ スク 上 の プロ ッ 
ク 番号 を 記録 し た テー ブル (inode 


/ 


術 が ある 


図 5 エン トリ ー の いく つか を 間接 参照 エン トリ ー と する 


な ど ) を 持っ て いま す 。 と は いえ 
この テー ブル を 丸ごと 持 と うと する 
と 、1G パ イト の デー タ を 管理 する 
の に 、1G/4K (1 つの プロ ッ ク の サ 
イズ ) =262144 も の エン トリ ー が 
必要 に な り ま す 。 こ ん な に 多く の エ 
ント リー を ファ イル ご と に 予約 し て 
いて は 、 ディ スク 容量 を 非 効 率 に 消 
費 し て し まい ます 。 

そこ で 、 一 般 に ファ イル シス テム 
で は 、 エ ント リー の いく つか は 直接 
デー タプ ブロック を 指す の で は な く 、 
間接 参照 エン トリ ー と し て 階層 化 
し ます 。 間接 参照 エン トリ ー は 、 デ 
ー タ プロ ッ ク を 指す エン トリ ー が 普 
プ ロッ ク を 指し ます 。 き ら に 、 間 
接 参照 エン トリ ー が 別 の 間接 参照 
エン トリ ー を 指す 2 段 参照 エン トリ 


ー と し た り 、 さ ら に 同様 に し て 3 邊 
段 参 照 エ ント リー と し た り し ます 
( 図 5)。 

た だ し 、 こ の 構成 を その まま ログ 
構造 ファ イル シス テム に 当て は め る 
と 問題 が 生じ ます 。 3 段 参 照 エ ント 
リー を た どっ た 先 の デー タ を 書き 換 
えた と し まし ょ う 。 変更 デー タ は 新 
し い プ ロッ ク に 書き 込ま れる の で 、 
その デー タ を 参照 し て いる エン トリ 
ー の プロ ッ ク も 書き 換え る 必要 が あ 
り ま す 。 

そう する と 、 さ ら に その プロ ッ ク 
を 参照 し て いる エン トリ ー、 さ ら 
に また それ を 参照 し て いる エン トリ 
ー と 書き 換え が 連鎖 し て いき ます 。 
粘 局 、 フ ァイル デー タ を 1 カ所 書き 
換え た い だ け な の に 、3 段 参照 エン 


II 


トリ ー の 場合 に は 4 カ所 の 書き 換え 
が 必要 に な っ て し まい ます 。 こ れ 
が 前 述 し た Wandering Tree Probl 
em で す 。 

F2FS で は この 課題 に 対処 する た 
め 、「Node Address Table」 (NAT) 
と いう 仕組 み を 使っ て いま す 。 エ ン 
トリ ー に 直接 ディ スク の プロ ッ ク 番 
号 を 書く の で は な く 、NAT の ノー 
ド 番 号 (エン トリ ー の 番号 ) を 書き 
ます 。NAT に は 、 ノ ー ド 番号 と プ 
ロッ ク 番 号 と の マッ ピン ダ タ 情報 が 保 
管 さ れ て いま す 。 ど の 部 分 の デー タ 
が 書き 換え られ た と し て も 、NAT の 
中 の 値 を 変更 する だ け で 済み ます 

次 に 、F2FS の ファ イル 種別 に つ 
いて 説明 し ます 。 F2FS で は ノー ド 
と デー タ に それ ぞ れ 「Hotl「Wa 
rml [Cold] の 3 つの 種別 が あり ま 
す 。Hot は 頻 第 な 書き 換え が 予想 き 
れる も の 、 逆 に Cold は ほとん っ 
き 換え が 生じ な いと 予想 され る も の 
で す 。 例 えば 、 デ ィ レ ク Ri 
直接 参照 ノー ド は Hot ノ ー ド で す 
また Hot デ ー タ の 代表 例 は ディ レク 
トリ ー の デー タ で あり 、Cold デー 
タ の 代表 例 は マル ナチ メディア の デー 
タ で す 

F2FS で は ファ イル シ 
成す る 際 に 、 最 大 で 64 個 の 拡張 子 
を 登録 で きま す 。 デ フォ ルト で は 
jpg」 「png」 「mp」 「ogg] な ど が 
指定 され て いま す 。F2FS で は これ 
ら の 拡張 子 を 持つ ファ イル の デー タ 
を マル チ メ デ ィ ア デー タ と 見 な し ま 
す 。 こ うし た デー タ は 一 廣 保 存する 
と 、 その 後書き 換え る こと は まず あ 
り ま せん 。 開 発 元 の Samasung が モ 
パイ ル 機 器 で の 利用 を 想定 し て 、 マ 
ル チ メ ディ ア 向 け に 最適 化し て いる 
こと が 左 け て 見 えて きま す 。 

F2FS は ユニ ー ク な 点 の 3 つ 目 に 
記し た よう に 、 複数 の 書き 込み 箇所 
を 持ち ます 。 前 記 6 つ の 種別 (ノー 


ステ ム を 作 


ド と デー タ に それ ぞ れ 3 種別 ) ご と 
に 、 別 々 の 「 セ モク ショ ン 」 (ディ ス 
ク 上 の 2M パ イト の 領域 で ある 「 セ 
グ メ ント 」 の 集まり ) に 書き 込み ま 
す 。 削除 まで の 寿命 で グル ー ビ ピン グ 

る こと で 、GC の 効率 化 を 図っ て 
いる の で す 

F は 、 セ グ メ ント を まとめ 
た 「 ゾ ー ン 」 と いう 区 切り も ありま 
す 。 こ れ は 、 フ ラッ シュ メモ リー ベ 
ー ス の スト レー ジ の 中 に は 、 複数 の 
モジ ュー ル で 構成 され た も の も ある 
こと か ら 、 適 切 に ゾー ン を 設定 する 
こと に よっ て 別 プ ー ン へ の 書き 込み 
が 別 モジ ュー ル に 作用 する こと を 期 
待 し て 用 意 き れ た も の で す 

また 、 ログ 構造 ファ イル シス テム 
で あり な が ら 、 空き 容量 が 少な 
っ た と き の た め に 、 既に デー タ が 書 
いて ある プロ ッ ク の 無効 領域 (既に 
参照 され な く な っ た 領域 ) に 上 
する と いっ た 現実 的 な 工夫 も 弟 
れ て いま す 代 二 は 特性 が 異な る 
デパ イス 向け に 設計 され た ファ イル 
ム に は 、 見 る べき 技術 が 詰 ま 
っ て いて 、 大 変 面白 いも の で す 


シス テ 


ホー ル を 飛ば し て 
無駄 な く コ ピー 


F2FS 以 外 の ファ イル シス テム 
も 、 大 きく 進化 し て いま す 。 2013 
年 に 起こ っ た 変化 を 振り 返っ て 
ます 。 

ext4 で は 、 小 さき な ファ イル の 場 
合 に は ファ イル の デー タ を inode に 
埋め 込め る よう に な り ま し た 。 デ ィ 
スク 容量 の 節約 と 、 小 さ な フ ァイル 
に アク セス する 際 の 性 能 が 向上 し ま 
し た 

また 、ext4 に は 「SEEK_DATA/ 
SEEK_HOLE」 機構 も 実装 され ま 
し た 。 フ ァイル の 中 に は 仮想 マシ ン 
の ディ スク イメ ー ジ な ど 、 サイ ズ が 


用 、 字 二 共 


イィ 


注 目 の 新 機 能 や 次 世代 後 能 を 知る 


大 きい に も か か わら ず 、 書き 込ま れ 
て いな い 領域 の 比率 が 高い も の が あ 
り ま す 。 書 き 込ま れ て いな い 領域 ま 
で ディ スク 上 に 割り 当て て お く の は 
無駄 な の で 、 そ うし た 領域 は 「 ホ ー 
ル 」 ( 究 ) と し て 扱い 、 割 り 当 て な 
よう に し て いま す 。 こ の よう な フ 
ァイル を 単純 に 読み 出す と 、 ホ ー ル 
部 分 が ゼロ で 埋め られ て いる よう に 
見 えま す 。SEEK_DATA/SEEK_ 
HOLE で は 、 ホー ル を 含む ファ イル 
を コピ ビー する 際 に 、 ホ ー ル 部 分 を 飛 
の て (ホー ル で は な い 、 次 の デー 
が ある 位置 まで 移動 し て )、 デ ィ 
ス ター 無駄 が 生じ な いよ 
うに し ます 
XFS で は 、 ジ ャ ー ナ ル ロ グ や メタ 
デー タ に チェ ッ ク サ ム を 付け られ る 
よう に な り ま し た 。 チ ェ ッ クサ ム を 
算出 する こと で 、 ジャーナル ログ な 
具合 が 生じ て いな いか どう か 
早く 検出 で きま す 
多く の 機能 を 備え て いる 
らち られ て いる BtrfS も 、2013 征 


Gr (て 


多く の 新 機能 が 実装 され まし 
えば 、 RAID 5 や 同 6 へ の 対応 、 デ 
ィ ス クタ 交換 の 高速 化 、 デ ー タ の 重複 
排除 機能 な ど で す 。2014 年 も 、 フ ァ 
イル シス テム 
る は ず で す 


は 引き 続き 進化 し 続け 


SSD (Solid State Drive) は 、 半 
導体 え メモ リー で ある フラ ッシュ メモ 
リー を 用 いた 記憶 装置 で す 。HDD と 
比べ て 、 ラ ンダ ム ア ク セス で も 一 定 
し て 高速 で 、 使 い 方 選び ませ ん 
その た め 、 自作 ユー ザー か ら エ ンタ 
ー プ ライ ズ 分 野 ま で 幅広 く 普及 し つ 
つ あ り ま す 。 し か し 「 書 き 込み 回 数 
制限 が あり 、 寿 命 が 気 に な る ]「 バ 
イト 単価 が 高い ] と いっ た 課題 も あ 
り ま す 。 最 新 Linux カー ネル で は 、 
これ ら の 課題 に ] 応 し て いる か 

て いき まし ょ う 


SSD を 長寿 化す る 
伏 9 
SSD の 長寿 化 に 関す る Linux カー 
ネル の 取り 組み と し て は 、discard 対 
応 が あり ます 。discard と は 、SSD 
が OS から プロ ッ ク を 教え て も 
ら う よう に する た め の 機 能 で す 


Ubuntu や Fedora な ど 
トリ ビュ ーション の 標準 ファ イル シ 
ステ ム で ある 「ext4|」 や 「Btrfs」、 
か つて の 標準 ファ イル シス テム で 

あっ た 「ext3]、 大 容量 ファ イル の 
性 能 に 定評 の ある 「xfs]、 そ の ほか 
is」 と 


「nills2] が 、discard に 対 


図 1 TRIM コ マン ド の 動き 


応 し て いま す 。discard に 対応 し た 
ファ イル シス テム で 、 こ の オプ ショ 
ン の 有効 / 無 効 を 設定 し ます 。 

有効 の 場合 ファ イル シス テム 
は 、 フ ァイル の 短縮 な ど で プ ロッ ク 
を 解放 する と き 、 解 放す る プロ ッ ク 
を ディ スク に 通知 する ATA の コマ 
ンド 「TRIM」 (SCSI で は UNMAP 
と 呼ぶ ) を 発行 し ます ま 
た 、 マ ウン ト 中 の ファ イル シス テム 
に 対し て 「fstrim」 を 実行 し た 場合 
も 、 フ ァイル シス テム が 使用 し て い 
な い プ ロッ ク を 同じ よう に ディ スク 
に 通知 し ます 

空き プロ ッ ク の 通知 が 寿命 に 関 
連 す る 理由 を 説明 し まし ょ う 。 ま 
ず 、SSD の メモ リー セル (記憶 素子 
の 最小 単位 ) は 、 書 き 込 み 回 数 が 10 
て 100 万 回 に 達する と 書き 込め な く 
な り ま す 。 そ の た め SSD は 、 デ ィ ス 
ク 全体 の 寿命 を 延ばす た め に 、 プロ 

ク ご と の 書き 込み 回 数 を 平準 化す 
る "ウエア レベリング" と いう 技術 
を 採用 し て いま す 

ウエ アレ ベリ ング で は 、OS か ら 
見 える ディ スク の プロ ッ ク 番 号 を ハ 
ー ド ウエ ア で 仮想 化し て いま す 。OS 
が プロ ッ ク を 書き 込む 際 、 ハー ドウ 
エア は 空き プロ ッ ク の うち 、 計 書 
き 込 み 回 数 の 少な い プ ロッ ク を 割り 
当て ます 。 こ れ に より 、OS が 同じ 
プロ ッ ク へ 何 度 書き 込ん で も 、 ハー 


ファ イル シス テム は 、TRIM コ マン ド で 不要 な ブロ ッ ク を ディ スク に 通知 する 。SSD は 、TRIM さ れ た ブロ ッ 


ク を 空き 状態 に 戻す 。 


~ 
” コ 答 、 


こん な に 面白 い 技術 が ある 


ドウ ゥ エア が 、 物 理 的 に は 異な る プロ 
ッ ク に 書き 込み を 分 散 き せま す 。 

例え ば 、 メ モリ ー セ ル の 書き 込み 
回 数 上 限 が 50 万 回 、 プ ロッ ク 数 が 
1000 で 、1 つ の プロ ッ ク に 書き 込み 
続け る 場合 ウエ アレ ベリ ング が 無 
けれ ば 、 同 じ プ ロッ ク に 最大 50 万 回 
書き 込む と 終わ り で す 。 ウ エア レベ 
リン グ を 使え ば 、 最 大 50 万 x1000 
回 = 50 億 回 書き 込め ます ( 図 2) 。 

し か し 、SSD の 空き プロ ッ ク が な 
く な る と 、 書き 込み 可能 な プロ ッ ク 
が な く な り ま す 。 そ の た め 、 ウエ ア 
レベ リン グ は 動作 し な く な り ま す 。 
で す が 、SSD 側 で 空き プロ ッ ク と 認 
識 さ れ て いな く て も 、 フ ァイル シス 
テム に と っ て の 空き プロ ッ ク で あれ 
ば 使え る は ず で す 。 そ こ で 、OS か 
ら SSD に 、 空 き プ ロッ ク を 通知 する 
discard が 有効 な の で す 。 

discard に よる 不要 プロ ッ ク 通 知 
は 、SSD の ウエ アレ ベリ ング だ け で 
な く 、 デ ィ ス ク の シン プロ ビジ ョ ニ 
ング に も 活用 きれ て いま す 。 シ ンプ 
ロビ ジョ ニン グ と は 、 ディス ク を 仮 
想 化し て 管理 し 、 実 際 の 使用 量 よ り 
も 多く 見 せる 仕組 み で す 。 


人 の 
キャ ッシュ 
SSD の バイ ト 単 価 の 高き に 関す る 
取り 組み と し て は 、SSD の キャ ッ シ 
ュ と し て の 利用 が 挙げ られ ます 。 
ディ スク を 他 の ディ スク の キャ ッ 
シュ と し て 使う 機能 と し て 、 カ ー ネ 


し 4 実 ブロ ッ ク 


還 使 有 中 
[日 き き 
空き 
上 病 
図 2 ウェ アレ ベリ ング あり の 動作 


番 き 込み を 使用 回 数 の 少な い 空き ブロ ッ ク に 対し 
て 行い 、 同 一 ブロ ッ ク へ の 書き 込み 集中 を 防ぐ 。 


ル 39 で は 「qdm-cache|| カー ネル 
3.10 で は 「bcache] と いう 機能 が 採 
用 きれ まし た ( 図 3)。^ 速 いけ ど 高 
価 な " SSD を 、" 遅 いけ ど 安 い " HDD 
の キャ ッシュ と し て 使い 、SSD の 高 
加 性 と HDD の 経済 性 の 両立 を 図り 
ます 。 

dm-cache も bcache も 、SSD を 
HDD の キャ ッシュ と し た 仮想 的 な 
デパ イス を 作り ます 。 フ ァイル シス 
テム な どか ら は 、SSD と HDD の 組 
み 合 わせ 全体 を 通常 の ディ スク と 同 
じ よ ょ うに 使え ます 。 よ く ア クセ ス さ 
れる プロ ッ ク は 、 キ ャ ッシュ デバ パイ 
ス に 複製 し て 、 高速 に アク セ モス で き 
る よう に し ます 。 

dm-cache と bcache の 主 な 條 い 
は 、 デ ィ スク 構成 、 カ ー ネ ル の 実装 、 
管理 イン タフ ェ ー ス で す 。 デ ィ ス ク 
構成 は bcache の 方 が 単純 で す 。 カ 
ー ネ ル の 実装 は dm-cache の 方 が 共 
通化 され で いま す 。 管 理 イ ンタ フェ 
ー ス は bcache の 方 が 整備 され て い 
ます 。 

dm-cache と bcache の ディ スク 構 
成 を 比較 する と 、dm-cache は キャ 
ッシュ 用 の ディ スク と 元 の ディ スク 
の ほか に 、 キ ャ ッシュ の 情報 を 保存 
する た め に 専用 の メタ デー タデ バイ 
ス を 必要 と し ます 。 一 方 、bcache 
に は その よう な ディ スク は 不要 で す 
( 図 4)。 キ ャ ッシュ と 元 デー タ の デ 
ィ ス ク だ け で 動作 し ます 。 専 用 の メ 


仮想 的 な ディ スク デバ イス 
他 の コン ポー ネン ト か ら は 1 つの ディ ス 


頻繁 に アク セス され る | 
ブロ ッ ク は SSD で 
高速 に アク セス 


図 3 dm-cache と bcache の 概要 


タデ ー タ デバ イス は 、 デ ィ ス ク 構 成 
を 複雑 に し ます が 、 更 新 頼 度 の 高い 
メタ デー タ を デー タ と 分 離し て いる 
の で 、 書 き 込 み の 分 散 が 図れ ます 

カー ネル の 実装 で は 、dm-cache は 
LVM (論理 ポ ボリューム マ ネジ ャ ー) 
や ソフ トウ エア RAID な どの 基盤 で 
ある 「device-mapper] の コー ド を 
再 利 用 し て いま す 。 こ れ に 対し 、bc 
ache は すべ て を 独自 に 実装 し て い 
ます 。 

dm-cache は 、device-mapper の 
開発 の 恩恵 を 受け られ ます が 、bcac 
he は すべ て の 改良 を bcache の 開発 
者 が 行わ な けれ ば な り ま せん 。 一 方 、 
bcache は 、device-mapper の デパ バイ 
ス に な い 「sysfs」 イン タフ ェ ー ス で 
キャ ッシュ の 設定 を 変更 で きま す 

管理 イン タフ ェ ー ス の 実装 で は 、 


頻繁 に アク セス され | | 
る ブロ ッ ク を SSD に 
キャ ッシュ する 


アク セス 頻度 の 低い 
ブロ ッ ク は HDD に アク セス 


bcache は 「bcache-tools] と いう 管 
理 コ マン ド と sysfs に よる 設定 変更 
が 可能 で す 。 こ れ に 対し 、dm-cache 
は device-mapper の 低 レ ベル な コマ 
ンド で ある 「dmsetup] の み に な り 
ます 。dm-cache は 、 メ タデ ー タ デ 
バイ ス の 容量 設計 と dmsetup コ マ 
ンド の パラ メー ター 指定 で ディ スク 
の プロ ッ ク 数 を 意識 し な けれ ば な ら 
な い の で 、 現状 で は 一 般 の ユー ザー 
が 使う の は 困難 で す 

キャ ッシュ 機能 の 比較 で 一 番 気 
に な る 性 能 は 、 キ ャ ッシュ する プロ 
ッ ク を 選択 する ポリ シー と ディ スク 
の アク セス パタ ー ン の 相性 に 依存 す 
る の で 、 優劣 を 簡単 に 比較 で きま せ 
ん 。 キ ャ ッシュ ポリ シー を プラ グイ 
ン 化 し て いる dm-cache の 方 が 将来 
有利 な 可能 性 が あり ます 


仮想 的 な を ディ スク デバ イス 


キャ ッシュ され た ブロ ッ ク と その 状態 を 保持 する 


専用 の デバ イス (パー ティ ショ ン ) 
図 4 dm-cache と bcache の ディ スク 構成 


トレ ー ス 機能 は プロ グラ ム の 動作 
を 追跡 し 、「 い つ 」「 何 を ] し た か 、 
その と き 「 ど の よう な 状 問 ] だ っ た 
か を 明らか に し ます 

プロ ファ イル 機能 は トレ ー の に 
っ て 得 ら れ た 情報 や 、 一 定期 間 ご 
の 実行 箇所 を 解析 し 、「 どこ で ] 本 
が ] 起こ りや すい か と いう 性 能 指標 
を 提供 し ます 。 ト レー ス は 情報 収集 
を 中 心 に 、 プロ ファ イル は 解析 を 中 
心 に し て いる と いえ ます ( 図 1) 

Linux カー ネル に は トレ ー ス 機能 
や プロ ファ イル 機能 が 豊富 に 提案 、 
実装 され て いま す 。Linux の トレ 
ー ス 機能 は 複数 の レイ ヤー か ら 成 
り 立 っ て いま す ( 図 2)。 図 2 の ツ 
ー ル レイ ヤー だ け 見 て も 、「Trace- 
cmd」「Periftools」「Ktap」「SystemT 
ap」 「LTTng] な ど 多く の 実装 が あ 


り ま す 
これ ら の ツー ル ・ 機 能 は それ ぞ 
れ の 用 途 に 応じ て 開発 され て きま し 


た 。 で は 、Linux の 代表 的 な 最新 ト 


イベ ント トレ ー ス 


一 傾 は 


図 1 トレ ー ス と プロ ファ イル 


図 2 Linux の トレ ー ス 機能 の スタ ッ ク 図 


プロ ファ イル 


レー ス 機 能 を 見 て いき まし ょ う 


カー ネル トレ ー ス 中 心 
の Ftrace 


Ftrace は 、 カ ー ネ ル 内 部 の 動作 解 
析 を 目的 に 作ら れ た トレ ー ス 機能 で 
す 。 当初 は Linux の スケ ジュ ー ラ ー 
や 割り 込み 動作 の 遅延 解析 に 利用 
され まし た 。 Ftrace に は 他 の トレ ー 
ス 機 能 と 比べ て 特徴 的 な 機能 が 多 
く あ り ま す 

関数 呼び 出し の トレ ー ス 機能 は 、 
カー ネル 内 の ほとん どの 関数 の 「 呼 
び 出 し 」 と 「 戻 り ] を トレ ー ス し ま 
す 。 こ れ に より 、 呼び 出し 関係 の 解 
析 や 、 個々 の 関数 の 処理 に 掛か っ た 
時 間 の 解析 が 可能 で す 

この 機能 は 、GCC (コン パイ ラ ) 
で 提供 きれ る 関数 呼び 出し 計測 機 
能 を 利用 し て 実装 し て いま す 。 カ ー 
ネル を 作る と き に コン バイ ラ が 作り 
込む た め 、 各 関数 で トレ ー ス の コー 
ド を 書く 必要 は あり ま 
せん 

イベ ント トレ ー ス 機 
能 は 、 計 算 機 が 実行 す 
る 特定 の 処理 を イベ ン 
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こん な に 面白 い 技術 が ある 
かつ ポラ 


ト と し て 記録 する 機能 で て す 。 イ ベン 
ト に は カー ネル 作成 時 に 定義 する 静 
的 イベ ント と 、 カ ー ネ ル 動作 中 に 自 
貼 に 追加 ・ 削 除 で きる 動 的 イベ ント 
と が あり ます 

静 的 イベ ント は 、 ソ ー ス コー ド 中 
に 関数 呼び 出し と し て 記述 され る た 
め 、 後 か ら 変更 で き な い も の の 、 高 
速 に 動作 し ます 。 動 的 イペ ント は 動 
作 中 の カー ネル の コー ド を 動 的 に 書 
き 換 える た め 、 ほとん どど こ に で も 
追加 で きる 代わ り に 、 オ ー パ バー ヘッ 
ド は 多少 大 きく な り ま す 。 

イベ ント の 情報 と し て 、 発 生 時 刻 
や イベ ント ご と に 定義 され た 変数 の 
値 を 得 ら れ ま す 。 そ の た め 、 その イ 
ベン ト が 発生 し た 時 点 で の カー ネル 
の 状態 を 知る こと が で きま す 。 ま た 、 
動 的 イペ ント に 関し て は 、 カ ー ネ ル 
だ け で な く ア プリ ケー ショ ン 内 に も 
イベ ント を 定義 で きま す 。 

Ftrace は 「debugfs| (デパ バッグ 
ファ イル シス テム ) 上 の 特殊 ファ イ 
ル を 介し て 利用 で きま す 。 そ の た 
め 、 コ マン ドラ イン か ら 「echo」 や 
「catl と いっ た コマ ンド で 制御 で き 
る の が 利点 で す 。 し か し 、 コマ ンド 
ライ ン に 慣れ て いな い ユ ー ザ ー に は 
使い に くい で し ょ う 。 

Ftrace を 補完 する た め の ツ ー ル と 

て 「Trace-cmd] や 「KerneLshark」 

に よる GUI 操 作 も 可能 で す 。 た だ し 、 
これ らち は いずれ 「Perftools] に 統合 
きれ で いく と いわ れ て いま す 。 


初め て に は お 勧め の 
Perftools 


Perftools は Ftrace と 並ん で 、 カ 
ー ネ ル 開発 者 に よく 利用 きれ る プロ 
ファ イル 機能 で す 。Perftools は 当 
初 、 そ れ ま で プロ ファ イル に 利用 さ 
れ て いた 「Oprofilel を 、 よ り 汎 用 
的 な プロ ファ イル 機能 と し て 置き 換 


注目 の 新 機能 や 
テ レー 人 和 す 、 レ 人 


える 狙い で スタ ー ト し 、 現在 で も 活 
発 な 開発 が 続け られ て いま す 
Perftools の 主力 と な る の は 、CPU 
固有 の 人 性能 カ ウン ター (PMU) を 扱 
う 機能 で す 。PMU は 、 キ ャ ッシュ 
ミス や 分 岐 予測 ミス と いっ た 、CPU 
の 性 能 に か か わる イベ ント を 検出 し 
を 
こう し た イベ ント が 起き る 特定 の 
箇所 を 最適 化す る だ け で 、 大 幅 な 性 
能 向 上 が 図れ る 場合 が 多く あり ます 。 
その た め 、 イ ベン ト 発 生 箇 所 を 解析 
する Perftools の 「top」 や 「stat」、 
「annotation] コマ ンド は 、 性能 チ ュ 
ー ニ ング に は 欠か せな い 機 能 で す 
また 、PMU の イベ ント は 、 発 生 
箇所 に よら ず 、 割り 込み を 使っ て 取 
得 で きま す 。 そ の た め 、Perftools は 
カー ネル と アプ リケーション の 両方 
を 解析 対象 と し て いま す 。 
PMU の ほか に も 、Perftools か ら 
は 静 的 イベ ント や 動 的 イペ ント を 操 
作 ・ 取 得 で きま す 。 特 に Perftools 
の 「probe] コマ ンド を 利用 する と 、 
デバ パッ ガー の よう に ソー スコ ー ド の 
任意 の 行 で 任意 の 変数 の 値 を 取得 
する よう に 動 的 イベ ント を 追加 で き 
ます 。 ま た 、 関数 呼び 出し の トレ ー 
ス 表 示 も サポ ー ト し つつ あり ます 
Perftools は 導入 が 簡単 で 使い や 
すい た め 、 初め て 使う に は お 勧め で 
す 。 Fedora で は 「perfl バッ ケー 
ジ 、Ubuntu で は 「linux-tools] パ 
ッ ケ ー ジ に 入っ て いま す 


自由 に 記述 が 可能 な 
SystemTap 


Ftrace は 、 イ ベン ト の 取得 場所 を 


の 特徴 


Ftrace トレ ー ス 


必 入 
導入 し や すい (カー ネル に 付属 ) 


次 世代 機能 を 知る 


ある 程度 自由 に 設定 で きま す が 、 基 
本 的 に は イベ ント を 取得 し て 表示 す 
る だ け で す 。 Perftools は 取得 し た 情 
報 を 後 で 解析 し て 「 何 が 起き た か 」 
を 調べ られ ます が 、 解 析 方 法 は ある 
程度 決め 打ち に な り ま す - 

SystemTap は ある イベ ント が 起 
きた と き に 「 ど うい うこ と を する か ]」 
を スク リプ ト 言 語 で 記述 で きる ツー 
ル で す 。 こ の スク リプ ト 言 語 に は 、 
か な り 高 い 自由 度 が あり 、 イベント 
デー タ の 統計 処理 や 、 イ ベン ト が 発 
生 し た 瞬間 に お ける カー ネル の 状態 
の 解析 処理 、 両 面 へ の 出力 形式 を ど 
うす る か 、 と いっ た こと を 記述 で き 
ます 。 

こう し た 柔軟 性 を 表す 例 と し て 、 
SystemTap を 使っ た ゲー ム 「 テ トリ 
ス 」 も 実装 きれ て いま す 。 さ きら に 、 
イベ ント の 状態 を 読み 取る だ け で は 
な く 、 任 意 に カー ネル 関数 の 呼び 出 
し や 、 メモ リー 書き 換え が 可能 な た 
め 、 一 時 的 な パグ 修正 の た め の カ ー 
ネル パッチ ング (バグ を 回 避 す る よ 
うに 処理 を 書き 換え る ) に も 使わ れ 
た 例 が あり ます 

SystemTap は ユー ザー の 書い た 
スク リプ ト を 解析 し 、 対 象 プ ログ 
ラム の どこ か ら ど うい う 情 報 を 引き 
出す か を 特定 し 、Linux カー ネル の 
ドラ イ バ を 作成 し ます 。 こ の た め 、 
初回 の 実行 に は 少し 時 間 が 掛か り ま 
す 。 (次 回 か ら は キャ ッシュ が 使わ 
れる た めか な り 高 速 に な り ま す )。 

使い こなせ ば 強力 な SystemTap 
で す が 、 スクリプト 言語 を 理解 する 
必要 が ある こと や 、 活 用 に は 追加 の 
デパ バック 情 報 の イン スト ー ル が 必要 
な こと な どか ら 、 や や 敷居 が 高い ツ 


Perftools 。 プロ ファ イル と トレ ー ス 導 入 し や すい (カー ネル に 付属 ) 


トレ ー ス 
トレ ー ス 


SystemTap 
LTTng 


平均 的 (関連 パッ ケー ジ が 多い ) 


へ 還 
健 


ツア 


ー ル と な っ て いま す 。 


組み 込み や Lua ペ ベース 
の ツー ル な ども 

この ほか 、Linux の トレ ー ス 機能 
と し て 「LTTng] や 「Ktap」 が 提 
案 さ れ て いま す 

LTTng は 主 に 組み 込み 開発 で よ 
く 利 用 きれ て いる トレ ー ス 機能 で 
す 。 機能 的 に は Ftrace に 似 て いま す 
が 、 統 合 開発 環境 [Eclipse| と 連 
携 で きる な どの 優れ た GUI や 、 
「UST」 と 呼ば ん る ユー ザー アプ ブリ ケ 
ーション の トレ ー ス 機能 が 充実 し て 
いま す 

Ktap は 最近 開発 が 始ま っ た スク 
リプ ト 言 語 ベ ペー ス の トレ ー ス ツー ル 
で す 。SystemTap が 「AWKI に 似 
た スク リプ ブ ト 言語 を 採用 し て スク リ 
プ ト を カー ネル ドラ イ バ に コン パイ 
ル し て か ら 使 う の に 対し 、Ktap で 
は Lua ペ ー ス の スク リプ ト を バイ ト 
コー ド に コン パイ ル し 、 そ の イン タ 
プリ ター だ け を カー ネル ドラ イ バ に 
し て いま す 

また 、 こ の イン タブ リタ ー は 、 Fe 
rftools や Ftrace の 基 和 衣 と 連携 し て 
動作 する よう に な っ て いま す 。 そ の 
た め 、 既 存 の 機能 と の 親和 性 が 高い 
の で す 。 親 和 性 の 高き と 、 実 装 が コ 
ン パ クト で ある こと か ら 、 注目 を 集 
め て いま す 。 

各 ト レー ス 機 能 の 特徴 を まとめ る 
と 表 1 の よう に な り ま す 。 機能 ご と 
は あり ます が 、 得 意 な 分 野 を 
* し て 利用 すれ ば 、 カー ネル 開発 
の みな ら ず 、 ユー ザー アプ リ ケ ー シ 
ョ ン の 開発 の 補助 に も 使え ます 。 


ララ Nmm) 公 、 / 


ノー ト PC の 動作 時 間 を 延ばす に 
は 、PC を 閉じ て いる 間 は 低 消費 電力 
モー ド に 移行 きせ る 「 サ スペ ンド / 
レジ ュー ム ]| に よる 電力 制御 が 有効 
で す 。 Linux で も 、Intel CPU が 備 
える 低 消費 電力 モー ド (C ス テー ト ) 
を 活用 で きる よう に な っ て いま す - 


最近 で は 、 ス マー ト フ ォ ン や ヤ タ 
プレ ッ ト な どの モバ イル 端末 を 中 心 
に 、 よ り 小 さき な パッ テリ ー で 、 さ ら に 
長い 時 間 動 作 き せ た い と いう ニー ズ 
が 高まっ て いま す 。 こ うし た 機器 で 
は 、 サ スペ ンド / レ ジュ ー ム は 役 に 
立ち ませ ん 。 こ うし た 機器 を 使っ て 
いる 方 な ら す ぐ 分 か る で し ょ う が 、 
画面 が 消え て いる 状態 で も 、CPU や 
メモ リー が 通常 通り 動作 し て いる の 
で 、 サ スペ ンド 状態 に 移行 きせ る こ 
と が で き な い か ら で す 

この よう な 通常 動作 中 に お ける 
電力 消費 抑制 の ニー ズ に 対し て 、 Li 
nux カー ネル に は 以下 の よう な 方 策 
が 講じ られ つつ あり ます 


で きる 限り 長い 期間 、CPU を ア 
イド ル 状 態 に 置く 

@ 負 荷 に 応じ て 、CPU の 動作 周波 
数 や CPU の コア 数 を 変化 させ る 


CPU オン 


チッ プ 内 で 使っ て いな い 機 能 を 選 
択 的 に オフ に する 


この 中 で 、2013 年 6 月 30 日 に 公開 
きれ た カー ネル 3.10 で 導入 され た *! 
「tickless multitasking」 に 注目 し て 
み ま し ょ う 。 こ れ は 、 モ バイ ル 機 器 
ペン ダー な どか ら 強 く 期 待 さ れん てい 
た 新 機能 で す 

Linux に 限ら ちず 、 一 般 的 に マル チ 
タス ク 対 応 OS で は 「tick] と 呼ば 
れる 周期 タイ マー を 契機 と し て 、 タ 
スク 切り 替え を 行う 仕組 み を 持っ て 
いま す 。 Linux カ ー ネ ル の 場合 に は 、 
10 ミ リ 秒 ご と に (すなわち 、1 秒 間 
に 100 回 )、CPU を 起き 上 が ら せ て 
プロ セス スケ ジュ ー ラ ー の 処理 を 実 
行き せ て いま す 。 た だ し 、 シス テム 
が アイ ドル 状態 の と き に は 、 そこ で 
起床 させ る べき タス ク が 無い の で 、 
無駄 に 電力 を 消費 させ て いる 面 が あ 
り ま し た 

シス テム が アイ ドル 状態 の と き 
に 、 周 期 的 な スケ ジュ ー ラ ー 起 動 を 
させ な い 設 定 と し て は 「ticklcss 動 
作 」 と いう オプ ショ ン が 用 意 さ れ て 
いま す 。 カ ー ネ ル コン フィ ギュ レー 
ショ ン 設 定 の 中 の 「CONFIG_NO_ 


CPU アイ ドル 


処理 が 無く て も tick ご と に 起床 する 


実際 の 処理 要求 


CPU オン 


CPU アイ ドル 


ic 
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HZ_IDLE] を 指定 する と 、 有 効 に 
な り ま す 。 こ の 機能 は 、 最近 の 主要 
ディ スト リ ビ ュ ーション で は デフ ォ 
ルト で 有効 に な っ て いま す 。 

カー ネル 3.10 で は 、 新 た に 「CONF 
IG_NO_HZ_FULL」 オプ ショ ン が 追 
加 さ れ ま し た 。 こ れ は 、 ア イド ル 中 
で は な い 通 常 の 動作 中 で あっ て も 、 
周期 タイ マー に よる 起床 を 全面 的 に 
止め て 完全 イペ ント ドリ プン で 動か 
す 試 み で す 。 実際 に は 、 ま だ 完全 な 
意味 で の tickless 動 作 に は な っ て い 
ませ ん 。 最 低 1 つ の CPU は 1Hz (= 
1 秒間 に 1 回 だ け ) で 周期 的 に ハウ ス 
キー ピン グ 処 理 を させ る 必要 が あっ 
た り 、 ア イド ル 状 態 の CPU を 起き 上 
が ら せ る 際 の レイ テン シー が 問題 に 
な る ケー ス も あっ た りす る か ら で す 。 

大 半 が アク ティ ブ 状 態 に ある の で 
サス ペン ド に 移行 する こと こそ で き 
な いも の の 、 処理 負荷 が 掛か る 時 間 
が 短 時 間 に と ど ま る 携帯 電話 用 な 
ど で は 、tickless 動 作 を うま く 活 用 
する と 大 き な 電 力 削 減 に な る で し ょ 
うま *2。 、tick に よる 周期 起 
床 が 無く な る こと に 伴っ て 、 シ ステ 
ム の 挙動 が 変化 する 範囲 は 大 きい と 
いえ ます 。 従 っ て 、 こ の CONFIG_ 
NO_HZ_FULL 機 能 は デフ ォ ル ト で 
は 有効 に な っ て いま せん 。 

エコ 、 省 エネ の 実現 は 、 処理 の ス 
ルー ブッ ト や リア ル タ イ ム メ 応 答 性 と 
は 相反 する 側面 を 持っ て いま す 。 特 
に バッ テリ ー 駆 動 の シス テム で は 、 
より 高度 な パワ ー マ ネ ジメント 機構 
が 要求 きれ る で し ょ う 


キ 1 2013 年 5 月 5 日 に 、 Linus Torvalds 氏 
が 管理 する ツリ ー に マー ジ さ れ ま し た 。 詳 細 は 、 
「https://git.kernel.org/cgit/linux/kerm 
el/gi/torvalds/linux.git/commit/?id=53 
4c97b0950b1967bca1c753aeaed321 
5db40264] を 参照 し て くだ さい 。 

* ネ 2 搭載 する マル チコ ア の うち 1 つ だ け を 起 
こし て お き 、 他 の コア は すべ て アイ ドル に 入れ 


こん な に 面白 い 技術 が ある 


、 
N 


て コア の 電源 まで 落と すこ と が で きれ ば 理想 
的 で す 。 


処理 要求 が 来る まで 、 ず っ と アイ ドル 状態 
図 1 tick 動作 (上 ) と tickless 動作 ( 下 ) の 違い 


ュ レ ン 
問 際 (4 


注目 の 新 機能 や 
ョ ント 、 ! K、 


KVM (KerneLbased Virtual Ma 
chine) は Linux で 使え る 仮想 化 の た 
め の 機 能 で あり 、 カ ー ネ ル モジ ュー 
ル と し て 実装 きれ て いま す 。 実際 に 
仮想 マシ ン を 動作 させ る に は 、 仮想 
化 ツ フト ウゥ エア で ある QEMU か ら 
KVM を 使う こと に な る た め 、 こ の 
2 つ を セッ ト に し た 仮想 化 の 仕組 み 
を KVM と 呼ぶ こと も あり ます 。 


仮想 化 支援 機能 と 
ゲス ト の 実行 


KVM に よる 仮想 化 を 説明 する た 
め に よく 使わ れる 方 法 に 、QEMU ま 
で 含め た ハイ バー バイ ザー の 全体 像 
か ら 眺 め て 話 を 進め る トッ プ ダ ウン 
的 な や り 方 が あり ます ( 図 
し 、 そ の や り 方 に は 、 曖 味 な イメ ー 
ジ が 先行 し て 大 体 的 な 動作 イメ ー ジ 
が 湖 き に くい と いう 問題 が あり ます 。 

そこ で で ここ で は 選 う や っ で 
スト の 命令 を CPU に 実行 させ る の 
か | と いう 、 最 も 基本 的 な 問い へ 
の 答え を 説明 する と ころ か ら 始 め ま 
す 。 鍵 と な る の は 、 米 Intel 社 や 米 
Advanced Micro Devices 社 (以下 、 
AMD) の CPU に 搭載 され て いる 仮 
想 化 支援 機能 で す 。 これ 以降 の 説明 
で 、 具 体 例 を 出す 場合 に は Intel の 
例 を 挙げ ます が 、 基 本 は AMD の 場 
合 も 変わ り ま せん 。 

まず 、CPU に プロ グラ ム と し て 記 
述 され た 命令 列 を 実行 きせ る た め に 
何 が 必要 で あっ た か 思い 出し て み ま 
し ょ う 。 現在 実 行 する 命令 を 指す 
CPU レジ スタ に は 、 命 令 の 場所 で 
ある アド レス が 設定 され て いる 必要 
が あり ます 。 プ ログ ラム を 実行 中 に 
生じ た 計算 結果 も 、 ど こ か の レジ ス 


次 世代 機能 を 知る 


タ に 格納 され て いる で し ょ う 。 CPU 
は ほか に も さま ざま な 状態 を 持っ て 
いま す 。 簡 単に いえ ば 、CPU は 命 
令 を 実行 する た め に 適切 な 状態 で あ 
る 必要 が ある わけ で す 。 命令 を 実行 
する た びに 状 悲 が 更新 され て いく の 


が プロ シン グ た る ゆえ ん で す 。 

KVM に お いて ゲス ト の 命令 が 実 
行き れる と きも 同じ で す 。 CPU は ゲ 
スト の 計算 状態 を 保持 し て いる 必 
要 が あり ます 。 た だ し 、 も と も と ホ 
スト の 命令 を 実行 し て いた 状態 か ら 
ゲス ト の 命令 を 実行 する 状態 へ 切り 
替え る 必要 が あり ます 。 KVM で は 、 
この 切り 替え を 行う こと を 「 ゲ スト 
モー ド に 入る 」 と 表現 し ます が 、 実 
際 に これ を 実行 する の は CPU の 仮 
想 化 支援 機能 で す 


Intel CPU が 持つ 
仮想 化 支援 機能 


Intel の CPU に は 、VMX (virtual 
machine extensions) と いう 仮想 
化 用 の 拡張 機能 が あり ます 。 この 中 
ゲス トモ ー ド に 入る (VM ent 
er*1) た め に 使用 する の は 「VMLA 
UNCH] お よび 「VMRESUME」 と 
いう 専用 命令 で す 。 

また 、 こ れ ら の 命令 に よる モー ド 
の 切り 替え を 制御 する た め 、「VM 
CS] (virtual machine control data 
structure) と いう 構造 体 が 使用 さ 
れ ま す 。 先 に 説明 し た ゲス ト の CPU 
の 状態 ほ は 、 こ の 構造 体 の 一 部 に 設定 
きれ て いれ ば よい の で す 。 そ うす れ 
ば 、 切り 替え の 際 に 、 ハー ドウ エア 
が その 状態 を 適切 に CPU に ロー ド 
する よう に な っ て いま す 。 この 切り 
替え の 後 は 、 ゲ スト モー ド で CPU が 


で 、 


イィ 人 


動作 し ます 。 

これ に 対し て 、 ゲ スト モー ド で 動 
作 し て いた CPU は 、 い つか ホス ト 
の 命令 を 実行 する 状態 に 戻っ て き 
ます (VM exi() 。 ゲ スト モー ド で 
動き 出し た CPU が すべ て の 命令 を 
その まま 実行 し 続け た の で は 、 ハイ 
パー バイ ザー で ある KVM が ゲス ト 
を 制御 で き な く な っ て し まう か ら で 
す 。 具体 的 に は 、 ハ イ パ ー バ イザ ー 
に よる 介入 が 必要 に な る よう な 条件 
下 *2? に お いて 、VM exit が 発生 し 
て ゲス トモ ー ド か ら 出 て くる よう に 
な っ て いま す 」 

な お 、VMCS に は 、 そ の 条件 を 
調整 する た め の 領域 が あり ます 。 ま 
た 、VMexit を 発生 きせ た 原因 お よ 
直前 の ゲス ト の 状態 を 保存 する 領 
域 も 用 意 さ れ て いま す - 

ここ で 、 少 し 話 が それ ます が 、 よ 
く 使 われ る 「 ゲ スト の 動作 する 仮 
想 CPU は 、VCPU ス レッ ド と いう 
QEMU プロ セス の スレ ッ ド で ある 」 
と いう 説明 の 仕方 に つい て 、 そ の 意 
味 を 解説 し ます 
た 内 容 を 思い 出し な が ら 読ん で くだ 
きい 

まず 、VCPU ス レッ ド は 、 ゲ スト 
の 命令 実行 を 依頼 する た め に KVM 
の API を 呼び 出し ます 。 す る と 、 
KVM は VMCS を 適切 に 設定 する な 
で 、VMLAUNCH や VMR 
命令 を 使い 、CPU を ゲス ト 


び が 


モー ド に 切り 替え ます 
VM exit に よっ て ゲス ト の 実行 が 
中 断 さ れる と 、 実 行 を 開始 し た 元 


図 1 KVM に よる 仮想 化 の 階層 


図 2 VCPU ス レッ ド の 仮想 CPU と し て の 動作 


の スレ ッ ド の コン テキ スト で KVM 
に 戻っ て きま す 。 ホ スト か ら こ の 間 
の ゲス トモ ー ド に よる 動作 を プラ ッ 
クボ ックス 化し て みる と 、 こ の スレ 
ッ ド が 仮想 CPU と し て 働い て いた 
よう に 解釈 で きる と いう わけ で す 
( 図 2)。 


ネス ト さ れ た 仮想 化 
と は どの よう な こと か 


ここ まで の 説明 で 、KVM が CPU 
と いう 計算 資源 を ゲス ト に 提供 す 
る 仕組 み が 具 体 的 に イメ ー ジ で きた 
と 思い ます 。 ま た 、Intel VMX の よ 
うな 仮想 化 支 援 の 仕組 み が ど の よ 
うに 使わ れる か も 理解 で きた の で は 
な いで し ょ うか 

も ちろ ん 、KVM に は メモ リー を 
仮想 化し て ゲス ト に 提供 する な ど 、 
ほか に も 重要 な 仕事 が あり ます 。 ま 
た 、 その た め の ハ ー ド ウエ ア に よる 
支援 機能 も 存在 し ます *3。 

KVM モジ ュー ル が 仮想 化 支援 機 
能 を 活用 し て ゲス ト を 動作 きせ る 仕 
組み に つい て の 基本 的 な 実装 は 既に 
で き て いま す 。 そ れ で は 、 も う KVM 
モジ ュー ル の 開発 は 収束 し て し まっ 
た の で し ょ うか 。 

実は を う で は あり ませ ん 。 こ こ 数 
年 、 ネ スト され た 仮想 化 (Nested 
Virtualization) と いう 仕組 み の 開 
発 が 盛り 上 が り を 見 せ て いま す 。 ま 
ず 、 仮想 化 を ネス ト す る と いう こと 
の 意味 に つい て で す が 、 簡単 に 言い 


還 ジ |  。 | ま 


LAUNCH/VMRESUME を 発行 


VM enty 


こよ 


IKVM の 介入 が 必要 な 事象 が 発生 


換え る と 、 ゲ スト の 中 で も KVM の 
よう な ハイ パー バイ ザー に よる 仮想 
化 を する と いう こと で す 。 例 えば 、 
クラ ウド サー ビス に より 提供 され た 
Linux ゲス ト 内 で も KVM を 使い た 
い 場 合 な ど に 必要 と な る 技術 で す 
( 図 3)。 

た だ し 、 こ れ を 実現 する た め に 
は 重要 な 課題 が あり ます 。 先 に 説 
明 し た Intel VMX の 仮想 化 用 命令 
は 、CPU が ゲス ト を 動作 させ て いる 
間 は 使用 で き な い の で す 。 つ まり 、 
KVM が 必要 と する ハー ドウ エア の 
機能 が ゲス ト 内 で は 利用 で き な い こ 
と に な り ま す 

KVM に お ける ネス ト さ きれ た 仮想 
化 の 実現 と いう の は 、 この ゲス ト 内 
で 使用 で き な い は ず の VMX の 命令 
を 、 ホ スト で KVM が エミ ュ レ ー ト 
する に よっ て 、 ゲ スト に 使わ せ 
る こと を 意味 し ます 。 当 然 、VMX 
で 使用 きれ る と 説明 し た VMCS の 
よう な も の も 、 ゲ スト が 使え る よう 
に 仮想 化し て 提供 する 必要 が あり 
ます 。 

結果 と し て 、 ゲス ト で 動作 し よう 
と する KVM モジ ュー ル を 、 ホ スト 
で 動く KVM モジ ュー ル が 支え て い 
る と いう 少々 複雑 な 関係 に な り ま 
す て 、 何より 難し い の は 、 こ 
の よう に ネス トミ され た ゲス ト の 性能 
を 実用 に 置 える レベ ル ま で 引き 上 げ 
る こと で す 。KVM 仮 想 化 の オー バ 
ー ヘ ッ ド は 、 仮 想 化 支援 機能 の 進化 
の 恩恵 な ども 受け 、 非 常に 小さ く な 


図 3 ネス ト さ れ た 仮想 化 


りつ つ あ り ま す 。 

し か し 、 その 機能 を エミ ュ レ ー ト 
する 必要 が ある 、 ネ スト され た 仮想 
化 で は そう は いき ませ ん 。 エ ミュ レ 
ー ト の 仕方 が 性 能 を 大 きく 左右 し ま 
す 。 き さら に 、 最近 の Intel の CPU に 
は ネス ト さ れ た 仮想 化 を 支援 する 機 
能 も 追加 され て いる の で 、 そ れ を 活 
用 し た 最適 化 も 重要 に な っ て いま 
す 。2013 年 に 注目 を 集め た の も 、 こ 
の ネス トミ きれ た 仮想 化 の 性 能 最適 
化 に 関す る 開発 で す 。 

現状 、 ま だ まだ 実用 に 面 える レベ 
ル と は 言え な い ネ スト され た 仮想 化 
で す が 、 今後 の 開発 成果 に よっ て 
は 、 ク ラウ ド 環 境 で 普通 に 利用 きれ 
る 日 が くる か も しれ ませ ん 。 今後 の 
開発 の 進展 に 期待 し まし ょ う 。 


 * ま 2 ゲス ト で その まま 実行 で き な い 命令 の 
実行 時 な ど で す 。 


* ま 3 Iniel の EPT(EXended Page Table) 
な ど で す 。 


が 


今 注目 を 集め て いる ソフ トウ エア 
と し で 、1 つ の OS 環境 上 で 複数 の 独 
立 し た Linux の 環境 を 実現 する 「 コ 
ン テ ナ ー」 が あり ます 。Linux で は 、 
各 コ ン テ ナ ー に 異な る アプ リ ケ ー シ 
ョ ン を 配置 し 、 障害 時 で も 互い に 影 
響 を 及ぼ さ な い よう に で きま す 。 仮 
想 化 機能 と 違う 点 は 、 仮 想 マ シン を 
作る の で は な く OS を 分 割 する 機能 


と 

ば 、Ubuntu に は 標準 で コン 
と し て 「LXC ま 1| が 提供 され 
す 。 コ レン レ テ ナ ー は 、 アブ リ ゲ 
ーション 開発 ・ 実 行 環境 を サー ビス 
と し て 提供 する 「PaaS (Platform as 
a Service)」 の 基盤 や ピッ グ デ ー タ 
の パッ クエ ンド 処理 な ど 、 同 一 マシ 
ン 上 に ある 複数 の テナント 間 で 相互 


図 1 cgroup の 利用 例 
OS リソー ス を 分 割 し 、 醒 要 な サー ビス を 行う 「Gold」 グ ルー プ 、 垂 要 度 の 落ち る サー ビス を 行う 「Silver」 グ ル 
ー プ 、 SE の ログ イン シェ ル な ど を 閉じ 込め る 「Bronze」 グ ルー プ に 分 割 。 各 グ ルー プ に プロ セス を 所 属さ せる 
こと で 制限 が 掛か る 。 


namespace 人 


どの namespace に 所 属す る か で カー 
ネル の 情報 の 見 せ 方 (返答 ) が 変わ る 


例え ば それ ぞ れ の namespace に 所 属す る プロ セス か ら gethostname() す る と それ ぞ れ 別 の 名 前 が 返っ て き 
た り 、/proc を ls する と 見 える pid の リス ト が 異な っ た りす る 。 


図 2 namespace の 概要 


表 1 UMDeapeos の 湯 


影響 を 避け た い 場 面 で 利用 され て い 
ます 。 この コン テナー を 構成 する 
カー ネル の 機能 が 「cgroup] と 「na 
mespace」 の 2 つ で す 

cgrouD は 、 複 数 の プロ モス を グ 
ルー プ 化 し て 管理 する 機能 。 グ ル 
ー プ 単位 で 、 利 用 で きる リソー ス 量 
(CPU や メモ リー、1/O)、 ア クセ 
ス で きる デバ イス な ど を 制限 し ます 
( 図 1)。 つ まり 、cgroup 機 能 を 使え 
ば 、 コ ン テ ナ ー の CPU リソース を 制 
限 し 、 他 の コン テナー に 性 能 影響 を 
与え な いよ うに で きる わけ で す 

namespace は 、OS 内 の 各種 機能 
を 仮想 化す る 機能 で す ( 図 2)。 na 
mespace に は 「pid] (プロ モス の 識 
別 番号 )、「uid] (ユー ザー の 識別 番 
)、「mount| (ファ イル の 構成 情 
報 ) な ど が あり ます ( 表 1)。 例え 
ば 「uts namespace」 を 使う と コン 
に 別 の ホス ト 名 (hostna 
me) を 設定 で きま す 

namespace 内 で 作ら れ た 情報 は 、 
原則 的 に 他 の namespace か ら 見 えま 
せん 。 コ ン テ ナ ー で は namespace ご 
と に プラ イベ ー ト な OS 構成 情報 を 
持た せ 、 ホ スト や 他 の コン テナー か 
ら 独 立 し た 空間 を 作成 し て いま す 


テナー ご 


現実 的 な 使い 勝手 に 
な る cgroup 


cgrouD は 、 多 く の 細 か な 機能 が 
“自由 度 が 高 す ぎ て 使い こなせ な い " 
と 見 られ 、2011 年 ご ろか ら 仕様 変 
更 が 始ま り ま し た 。 代表 例 と し て 、 
CPU や メモ リー な ど 各 機能 単位 に 
リソー ス 管 理 の 階層 (ヒエ ラル キ 
ー) を 作る 機能 が 挙げ られ ます 

cgroup を 使う 際 は cgroup IS を マ 
ウン ト し 、 そ の 下 に ディ レク トリ ー で 
階層 構造 を 作り ます が 、 こ の 階層 構 
造 を ヒ と エ ラル キー と 呼び ます 。CPU 
や メモ リー の それ ぞ れ で マウ ント し 


て ヒエ ラル キー を 作成 で きま す 。 

サー ビス の レベ ル に 従っ て 「Go 
ld」「Silver」「Bronze] と いう グル ー 
プ を 作り 、 各 グ ルー プ を さら に サー 
ビス ご と に 分 割 で きる も の で す 。 し 
か し 実際 の コン テナー 運用 で は 、 リ 
ソー ス ご と に ヒエ ラル キー を 構成 す 
る 使い 方 は し ませ ん 。 

な お 、 ヒ エラ ルキ ー の 階層 構造 を 
統一 的 に 利用 で きる よう に 仕様 を 改 
め て いま す 。Fedora な ど で は 初期 
化 機能 の 「systemd| が cgroup 全 
体 を 管理 し て お り 、 対 応 が 完全 に 終 
わる と 、 仕様 が 置き 換わる か も し れ 
ませ ん 。 ま ず 、 remount] や 「mo 
unt option| を 変え た 複数 筒 所 で の 
mount が 禁止 きれ て いま す 。rename 
も 同様 で す 。 自 由 に mount や rena 
me を 許可 し て いる 状態 だ と 、 シ ス 
テム 全体 の が パナ ンス が 効か な いか 
ら で す 。 ま た 、tasks フ ァイル は な 
く な り 、 プ ロモ ス 単 位 の コン トロ ー 
ル が で きる procs フ ァイル だ けが 使 
える よう に 制限 され ます 。 従来 は ス 
レッ ド ご と に コン トロ ー ル する た め 
の 「tasks」 ファ イル が あっ て 、 同 
じ プ ロ セ ス の スレ ッ ド が 複数 の cgr 
oup 配下 に 居る ケー ス が あり 、 複 雑 
だ っ た か ら で す 。 

cgrouD で は 通常 、 ヒ エラ ルキ ー 
の 親子 関係 で 階層 的 に コン トロ ー 
ル で きる 状 怠 が 標準 で す が 、「mem 
ory cgroup| と 「blkio cgroup| は 
親子 関係 を 無視 する 状態 が 標準 で 
し た 。 す べ て の cgroup で ヒエ ラル 
キー の 親子 関係 が 挙動 に 反映 する 
モー ド が 標準 に な り ま す 。 

CPU を cgroup に 割り 当て る 「cpu 
set] は これ まで 、CPU と メモ リー に 
適切 な 設定 を し て いな いと 、 プロ モ 
ス を 所 属さ せら れ ま せん で し た 。 所 

で きる よう に な り 、 適 切な 設定 が 
無い 場合 は 、 親 グ ルー プ の 設定 を 利 
用 し ます 。 


カー ネル メモ リー の 
制限 が 可能 に 

メモ リー の 使用 量 を 制限 する た め 
の 「memory cgroup」 は 、26 系 か ら 
あり まし た 。 た だ 、 制限 で きる の は 
ユー ザー メモ リー と ベ ページ キ ャ ッ シ 
ュ だ け で し た 。 そ の た め 、 カ ー ネ ル 
メモ リー の 制限 も で きる よう に 朱 張 
が 続け られ て きま し た 。 主 に 性 能面 
の オー パー ヘッ ド が 問題 で し た が 、 
その 点 を 工夫 し 、 カ ー ネ ル 3.8 か ら 
カー ネル メモ リー の 制限 が 可能 に な 
っ て いま す 。 こ れ に より 、memory 
cgrouD に 次 の よう な 制御 ファ イル 
が 追加 きれ て いま す 。①「memory. 
kmemulimit_in_bytes| と 、②③「me 
mory.kmem.usage_in_bytes」 で す 。 
D は 、 カ ー ネ ル メモ リー の 上 限 値 、 
3 は カー ネル メモ リー の 使用 量 を 示 
し ます 。 従来 の 制限 値 で ある 「mem 
oryJiimit_in_bytles」 の 上 限 値 は カー 
ネル メモ リー の 量 を 含み ます 。 つ ま 
り 、 全体 の メモ リー の 量 は 従来 の 制 
御 で 、 カ ー ネ ル メモ リー の 量 だ け を 
制限 する 場合 は 新しい 制御 ファ イル 
で 扱い ます 

1 つや や こし い の で す が 、「kmem. 
limit_in_bytes」 に 値 を 設定 する ま 
で は カー ネル メモ リー の 制御 は 行わ 
れ ま せん 。 従来 の 使い 方 と の 非 互 換 
を 放 ける た め の 措置 で す が 、 注意 が 
必要 で す 。 

すべ て の メモ リー を 追跡 する と 大 
き な オ ー バ パー ヘッ ド に な り ま す 。 そ 
の た め 、 すべ て の カー ネル メモ リー 
が 制限 の 対象 と な っ て いる わけ で は 
な く 、 ス レッ ド 構 造 体 や 「kmalloc] 
な ど が 追跡 対象 と な っ て いま す 。 


各 コ ン テ ナ ー で ID を 
独立 させ る 


次 に 、namespace に 最近 加わ っ た 


こん な に 面白 い 技 術 


sshd な どの daemon プ ロ セ ス の グル ー プ 
system.slice 


systemd 


が ある 


user.slice 


machine.slice 


図 3 systemd に 追加 され た “slice" 機 能 
シス テム 全体 を 3 つ に 分 割 し た 例 。 slice は 自作 も 可 
能 だ 。systemd slice や sysemd.cgroup の マニ ュ ア 
ル を 参照 。 


機能 と し て 「user namespace」 が 
あり ます 。 コンテナー ご と に ユー が 
ーID を 独立 させ る た め の も の で す 。 
例え ば 、 コ ン テ ナ ーA に root(UID 
=0) ユー ザー が いた と し ます 。 こ 
の root ユ ー ザ ー は コン テナーA の 中 
か ら は root」 に 見 える の で す が 、 
ホス ト 側 か ら み る と 「kamezawa 
(UID=1001) と いう ユー ザー に 見 え 
る 、 と いっ た 処理 が 実現 で きま す 。 
特に 、 コ ン テ ナ ー 内 で root ユ ー 
ザー と し て 動作 する プロ グラ ム に 寺 
し 、 こ の root ユ ー ザ ー が ホス ト 側 で 
は 別 の ユー ザー に 見 える よう に 処理 
で きれ ば 、 コンテナー の 利便 性 や セ 
キュ リティ が 大 きく 向上 し ます 。 


コン テナー 強化 を 
進め る systemd 
systemd は 「/sbin/init| に 替わる 

OS 初期 化 の 機能 と し て 開発 が スタ 
ー ト し まし た 。 cgrouD は すべ て sys 
temd の 管轄 化 で 管理 する 方 針 で 進 
ん で いま す 。 cgroup を 制御 する 既存 
の ライ ブラ リ 「iibcgroup] な ど は な 
く な る か も し れ ま せん し 、 仮想 化 機 
能 の 管理 ライ プラ リ 「iibvirt] の 内 
部 実装 $systemd と 連携 する よう に 
書き 直さ れ て き て いま す 。systemd 
に は 「systemdLslice] の リソー ス 管 
理 用 の 機能 が 加わ っ て いる の で チェ 
ッ ク す る と よい で し ょ う ( 図 3)。 


、 
N 


~ II 間 答 両 


ー ネ ル に は 、 セ キュ リティ に 関 
連 す る さま ざま な 機能 が 含ま れ て い 
ます 。 例 えば 、 フ ァイル シス テム に 
お ける 読み 取り や 書き 込み 、 実行 の 
許可 / 禁 止 (パー ミッ ショ ン )、 パ ー 
ミッ ショ ン よ り も 大 し い ア クモ ス 制 
限 を 施せ る 「SELinux] な ど で す 。 

また 、 外部 か ら の 不正 アク セス を 
防ぐ た め の 「 フ ァ イ ア ウォ ー ル 」 も 
あり ます 。 こ の ファ イア ウォ ー ル で 
す が 、 従 来 「netiilter」 と 呼ば れる 
カー ネル の パケ ッ ト フ ィ ル タリ ング 
機能 と 、 ユ ー ザ ー 空 間 で 動作 する [ip 
tables」 (また は 「ip6tables」) に よっ 
て 実現 きれ て いま し た 。 そ れ が カー 
ネル 3.13 に お いて 、ijiptables の 代わ 
り と な る 「nftables] が 登場 し 、 そ 
れ に 対応 する た め の 仕組 み が netflt 
er に マー ジ さ れ ま し た 。 こ の nftabl 
es は 、jptables や ip6tables が 抱え る 


従来 の 実装 


2 


図 1 従来 の 実装 と nftables の 実装 


ライ ブラ リ を | 
経由 


各種 課題 を 解消 で きる よう に 実装 
され て いま す 」 


信 混 2 
nftables 

nftables は 、 Patrick McHardy 氏 
が 2008 年 に 単独 で 開発 を 始め まし 
た が 、 数 年 間 、 開発 が 停 消し て いま 
し た 。2012 年 か ら 開 発 が 再開 され 、 
2014 年 1 月 19 日 に リリ ー ス され た カ 
ー ネ ル 3.13 に マー ジ さ れ ま し た 

この nftables で は 、jptables が 持つ 
次 の よう な 課題 を 解決 し て いま す 

まず 、 カ ー ネ ル 空間 お よび ユー ザ 
ー 空 間 の コー ド の 重複 に よる メン 
テ ナ ン ス 性 の 悪 き が 解消 され て いま 
す 。 主 に iptables は ユー ザー 空間 、 
netfilter は カー ネル 空間 で 動作 し ま 
す 。 た だ 、 完全 に 機能 が 分 離さ れ で 


nftables の 実装 


# yum fnstal]1 fedora-release-rawhide 器 
ま yum-conf1g-manager - 
# yum-conf1g-manager - 
# yum update yum ロ 

# yum fnstal1 nftables 品 


図 2 nftables パ ッ ケ ー ジ の イン スト ー ル 


-d1sable fedora updates updates-test1ng 
-enable rawhtde 品 


いる わけ で は あり ませ ん 。 そ の た め 、 
改変 し よう と する と 、 両 方 の コー ド 
じ ら な く て は いけ な いと いう 陸 
題 が あり まし た 

nftables で は 、 完 全 に 機能 が 分 離 
され て いて 、 改変 する と き に どちら 
か 片方 に 手 を 入れ る だ け で よい 場合 
が ほとん ど で す 。 ち な み に 、 徒 
iptables コマ ンド で netfilter に 直 
アク モス し て いま し た が 、nftablesr 
で は 、 ユー ザー 空間 の ツー ル で ある 
「nftl コマ ンド は [libnftmll な どの 
ライ ブラ リ を 経由 し て アク セス し ま 
す ( 図 1)。 

この ほか 、nftables で は フィ ル タ 
リン グル ー ル の 動 的 な 変更 が 可能 、 
パケ ッ ト フ ィ ル タリ ング の ルー ル が 
増大 し て も 性 能 が 低下 し な いな ど 、 
iptables を 利用 する 場合 に 問題 と な 
っ て いた 点 も 解決 され て いま す 


を い 


nftablesS の イン スト ー ル 

で は 、Fedora 20 で nftables を 使 
っ て み ま し ょ う 。 nfitables を 構成 す 
る 各種 バ パッケージ は 、 最新 の 開発 バ 
ー ジ ョ ン が 収め られ て いる 「Rawhi 
de」 リ ポジ ト リ ー か ら 入 手 で きま す 
よっ て 、 次 の 手順 で イン スト ー ル を 
実施 し ます 

Fedora 20 を イン スト ー ル し た 
PC を 用 意 し 、 端 末 を 開い て まず 
「yuml コマ ンド で 最新 の 状態 に 更 
新 し ま す 


Rawhide リ ポジ トリ ー を 有効 化 
し 、 図 2 の よう に 「nftables] パッ 
ケー ジ を イン スト ー ル し ます 。 そ の 
際 、「mxmll と 「libnftnll の パッ 
ケー ジ も 一 緒 に 導入 きれ ます 。 

最後 に [firewalld| と 「iptables] 
の デー モン を 停止 し ます 。 


の / ョ 、 Nm) 公 し / 


いい 


nftables を 使う 
nftables に は 、netfilter を 操作 する 
た め の テ ー ブ プル と し て 「filter」「ro 
ute」 「nat] の 3 つが あり ます 。 そ れ 
ぞ れ の テー ブル 内 に 「prerouting」 
[inputl 「forward」「outputl 「po 
strouting] の 、 パ ケッ ト を フッ ク す 
る ポイ ント と な る 「 チ ェ イ ン ] が 存 
在 し ます 。 こ の チェ イン に 対し て ル 
ー ル を 設定 し ます 。 ま た 、nftables 
の パー ジョ ン 02 か ら は IPv4 と IPv6 
の 両方 に 適用 で きる テー ブル と し て 
「inet」 が 用 意 き され ま し た 。 以 下 で 
Mb inet テ ー ブ プル で の フィ ル タ リ ン 
グ 設 定 を 例 に し ます 。 
まず inet の テー ブル を 作成 し ま 
す 。 「/etc/nftables/inet-filter」 フ 
ァイル は 、 inet の テー プル 作成 用 の 
nft ス クリ プ ト な の で 、 そ れ を 実行 
し ます 


che ます ( 図 
。 Tinput| 「forward」「output」 
0 つの チェ イン が 設定 され て いま 
す 。 最 初 に すべ て の 内 向き パケ ッ ト 
を ドロ ッ プ (廃棄 ) し て ロギング 
(ログ と し て 記録 ) し ます 。 こ の ル 
ー ル は 実用 的 で は あり ませ ん が 、 jp 
tables と 異な り 、 ド ロッ プ お よび ロ 
ギン グ を 、】Pv4 と UN6 和 0 
つの ルー ル で 設 る 点 は nftabl 
es の 特徴 を よく 来 し て て いま す 。 
ログ を 取得 する に は 、 iptables で 
の LOG ター ゲッ ト で 用 いら れる pri 
ntk () ベー ス の 「xLLOG」、 あ る 
い は 同じ く jptables で の NFLOG タ 
ー ゲ ッ ト で 用 いら れる 「nfnetlink_ 


こん な に 面白 い 技術 が ある 


table fnet ff1ter { 

chafn fnput { 

type fiter hook 1nput priority 0: 
} 


chatn forward { 
type fi1ter hook forward priority 0: 
} 


chafn output { 
type f11ter hook output priortty 0: 

) 

+ 


図 3 inet テ ー ブ ル の 内 容 
「input」 「forward」「output」 の 3 つの チェ イン が 設定 され て いる 。 


# cat /etc/nftables/default 
#!/uSr/sbfn/nft -f 
table fnet filter { 
chafn fnput ( 
type filter hook 1nput priority 0: 
ct state estab11shed accept 
ct state related accept 
11f 1o accept 
tcp dport ssh counter accept 
counter 1og drop 
} 
chafn forward { 
type fi1ter hook forward prior1ty 0: 
} 
chafn output { 
type f11ter hook output priority 0: 
ct state estab1l1shed accept 
ct state related accept 
o1f 1o accept 
ct state new counter accept 
} 
} 
(以下 、 省 略 ) 


図 4 SSH の み 外 部 か ら の アク セス を 許可 する ルー ル を 設定 する スク リプ ト 
IPv4 の 画 所 だ け を 示し た 。 


log] の いずれ か を 、 あ ら か じ め カ 
ー ネ ル に 組み 込ん で お きま す 。 


次 に 、 特 定 の ホス ト (192.1680. 
2) か ら の SSH で の アク セス を 話 可 
じ ま す 。 


以上 の よう な 操作 を 繰返し て ル 
ー ル を 設定 し ます 。 設定 は スタ リプ 
ト と し て も 用 意 で きま す 。SSH の み 
外部 か ら の アク モス を 許可 する ルー 
ル を 設定 する スク リプ ト (/etc/nft 
ables/default) は 図 4 の よう に な り 
ます 。「chmod] と 「chcon] コマ 
ンド を 次 の よう に 実行 すれ ば 、 ス ク 
リプ ト と し て 使え ます 。 


旦 


カー ネル の 開発 と 
コミ ュ ニ ティ ー 


カー ネル の 開発 は 、 ボラ ンティア と し て 集まっ た 開発 者 の コミ ュ ニ ティ ー に より 行わ れ て いま す 。 
最新 の 開発 状況 と コミ ュ ニ ティ ー に つい て 見 て み ま し ょ う 。 


[ 週 串 ] 開発 状況 si 
[ 思 計 ] 開発 コミ ュ ニ ティ ー ss 


2014 年 も 2 カ月 に 一 度 の ペー ス で 
安定 版 カ ー ネ ル の メジ ャ ー ア ッ プ デ 
ー ト 版 が 提供 さき れ て いま す 。 こ れ は 、 
いつ も 通り の カー ネル 開発 の ペー ス 
で す 。 2014 年 9 月 末 時 点 で 約 10 カ 
月 が 過ぎ まし た 。2013 年 11 月 2 日 
に リリ ー ス され た カー ネル 3.12 に 続 
き 、 図 1 の カレ ンダ ー に 示し た よう 
に 、 2014 年 1 月 19 日 に 3.13、 3 月 30 
日 に 3.14、6 月 8 日 に 3.15、8 月 3 日 
に 3.16 が リリ ー ス され て いま す 

前 章 で は 、2014 年 に リリ ー ス され 
た 3.13、 3.14、 3.15 の 中 か ら 8 つ の 機 
能 お よび 、 3.16 の 新 機能 を 紹介 し ま 
し た 。 こ こ で は 、 それ ら の バー ジョ 
ン お よび 最新 の カー ネル 3.16 で 加わ 
っ た 新 機能 や 改良 の 総括 と し て 動 
向 を まとめ て いき ます 


ファ イア ウォ ー ル が 変わ っ た 3.13 

カー ネル 3.13 で の 最も 大 き な 新 機 
能 は 、 フ ァ イ ア ウォ ー ル の フレ ー ム 
ワー ク と な る 「nftables] で す 。 nf 
tables に つい て は 、 第 3 章 Part2 の 
「8. モ キュ リティ 」 に まとめ て いま 
す 。 こ の 変更 は カー ネル 開発 者 だ け 
で な く 、 ユーザ ー に と っ て も 影響 が 
あり ます 。 

ファ イア ウォ ー ル の 設定 ツー ル が 
[iptablesl」 コマ ンド か ら 「nft| コマ 
ンド に 変更 きれ た か ら で す 。iptabl 
es コマ ンド は 、 使い 慣れ て いな いと 
設定 に 苦労 する ツー ル で し た が 、nft 
コマ ンド は それ より ゃ 直感 的 に 分 か 
りや すい ツー ル と な っ て いま す 。 ま 
た 、 ス クリプト フ ァイル に よる 設定 


ファ イア ウォ ー ル を 設定 で きる こと 
に な る で し ょ う 。 

その ほか 、 Squashfs の 性 能 向上 も 
あり ます 。Squashfs は 、 読 み 出し 専 
用 の ファ イル シス テム で あり 、 ラ イブ 
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起動 で きる Linux や イン スト ー ラ ー に 
利用 きれ る Linux、 組 み 込 み 機器 向 
け の Linux に 使わ れ て いま す 。 ペ ー 
ジ キ ャ ッシュ へ の 直接 圧縮 と 、 マ ル 
チ ス レッ ド に よる 解 玉 で 劇 的 に パフ 
ォ ー マ ンス が 向上 し て いる よう で す 
また 、 セ キュ ア エ レ メン ト を 実装 
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グラ フィ ックス の 高速 化 、 
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XFS の 改善 、64 ビ ッ ト ARM か 
ら の 直接 起動 な ど 
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図 1 2014 年 に リリ ー ス され た 4 つの 安定 版 カ ー ネ ル 


し た こと で 、NFC ( 近 距 離 無 線 通 
信 ) に よる 金融 機関 へ の 支払 い が サ 
ポー ト 可 能 に な り ま し た 。 iPhone 6 
で も 利用 可能 に な っ た NFC な の で 、 
Linux の シス テム で 有用 な 機能 に な 
る か も し れ ま せん 。 


メモ リー 圧縮 機構 が 追加 の 3.14 
カー ネル 3.14 で は 、 第 3 章 Part2 
の 『1. メ モリ ー 管 理 ] で 紹介 し た メ 
モリ ー 圧 縮 機 構 「zram] が 追加 さ 
れ ま し た 。 zram は 、 圧 縮 ・ 伸 張 機 
能 を 備え る RAM ディ スク (メモ リ 
ー 上 の 仮想 ディ スク ) で あり 、 メ モ 
リー の 内 容 を 圧縮 し て 退避 きせ る 目 
的 で 利用 きれ ます 。Android 4.4 や 
Chrome 0S な ど に 使わ れ て いま す 。 
この ほか 、 リ アル タイ ム 人 性 を 重視 
し た タス ク (また は プロ セス ) ス 
ケ ジ ュ ー ラ ー と し て 、 deadline ス ケ 
ジュ ー ラ ー ク ラス も 追加 され て いま 
す 。/ 秒 単位 で の 動作 を 保証 で きま 
す 。 ま た 、 第 7 章 Part4 の 「 ネ ッ ト 
ワー タク | で 触れ て いる bulferbloat の 
問題 を 解決 する た め の パ ケッ トス ケ 
ジュ ー ラ ー「PIE」 も 搭載 され て い 


カー ネル 3.13 


写真 1 ARM に 対す る 機能 追加 ・ 改 変 


ます 。 


サス ペン ド か ら 高 速 復帰 の 3.15 

カー ネル 3.15 で は 、 第 3 章 Part1 で 
も 紹介 し た 、 サ スペ ンド か ら 高 速 に 
復帰 で きる 機能 が 加わ り ま し た 。 第 
3 章 に は 実際 に テス ト し た 結果 を 載 
せま し た が 、 体 感 的 に も 高速 に な っ 
た こと を 実感 で きま す 。 ノー ト PC 
な ど を 使っ て いる ユー ザー に と っ て 
は 便利 な 機能 で す 。 

3.14 で 加わ っ た zram の 「LZ4] 形 
式 の 圧縮 が サポ ー ト され た お か げ で 
性 能 が 向上 し て いま す 。「FUSE」 と 
呼ば れる ユー ザー 空間 で 動作 する フ 
ァイル シス テム の 書き 込み 性 能 も 改 
善き され て いま す 。 こ れ ら に つい て は 、 
第 3 章 Partl と Part2 で 詳し く 触 れ 
て いま す 。 


グラ フィ ックス 性 能 向 上 の 3.16 
カー ネル 3.16 に 関し て は 、 第 3 章 
Partl の 最後 で も 新 機能 や 改善 点 を 
まとめ て いま す 。3.16 の 特徴 と いえ 
ば 、 主 要 な グラ フィ ックス チッ プ の 
ドラ イ バ 改 良 に よる 性 能 向上 で す 。 


カー ネル 3.16 


カー ネル 3.16 で は 載せ きれ な い 量 の 指 能 追加 や 改変 が ある 。 


各社 條 う アプ ロー チ で す が 、 それ ぞ 
れ に 人 性能 向 上 が 期待 で きま す 。 

NFS の 性 能 改善 $、CentOS や 
Red Hat Enterprise Linux の ユー 
ザー な ら 期 待 し て よい 機能 で す 。 
Red Hat Enterprise Linux 7 で の 標 
準 採用 が 決ま っ た 影響 も 大 きい と い 
えま す 。 


ARM サ ポー ト が 充実 

カー ネル 3.13 か ら 3.16 ま で を 通し 
て で 見 て みる と 、ARM へ の サポ ー ト 
が 充実 し て き て いま す 。 第 3 章 Pa 
rtl の 最後 に 紹介 し た 「http://ker 
nelnewbies.org/Linux_3.x-Drivers 
Arch] (x は 15 や 16 な どの パー ジョ 
ン 番 号 ) に アク モス し て 「Architec 
tures| -「ARM」 リン クタ を クリ ッ ク 
し て みて くだ きい (写真 1)。 他 の プ 
ロモ ッ サ に 比べ て 圧倒 的 な 量 の 機能 
追加 や 改変 で す 。 64 ビッ ト の ARM 
へ の サポ ー ト も 増え て いま す 。 

スマ ホ や タプ レッ ト な どの プロ セ 
ッ サ に ARM コア が 採用 され て いる 
こと 、Raspberry Pi な どの 低 価格 
な PC ボー ド が 登場 し て いる こと が 
理由 で し ょ う 。 こ の 分 野 は 、 今 後 も 
広がっ て いき そう で す 。 注目 し て み 
て くだ さい 。 

Btrfs の 改変 も 各 バ パージ ョ ン に 必 
ず 含 まれ て いま す 。Btrfs は 、 期 待 
の ファ イル シス テム で す 。UNIX 系 
OS で は 「ZFS」 と 呼ば れる ファ イ 
ル シ ス テム が 人 気 で す が 、 ラ イセ ン 
ス 上 の 問題 か ら 主 要 な Linux デ ィ ス 
トリ ビュ ーション で は 採用 を 見 送 
っ て いま す 。BtrIsS は 、 そ れ に 匹敵 
する ファ イル シス テム で す 。 

Btrfs は 2007 年 に 開発 が 開始 され 
まし が 、 現 在 で も Btris の 実用 に 不 
安 が あり ます 。 い つか は 実用 に 耐え 
得る ファ イル シス テム と し て 主要 な 
Linux ディ スト リ ビ ュ ーション に 採 
用 され る こと で し ょ う 。 


= ボラ シティ ア ペリ 
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リッ ト 
全 が 大 き な 原 動 カ = 


~ 般 に 、Linux カー ネル の 開発 は 適切 な の で し ょ うか . と は いえ 、 こ うい っ た カー ネル 開 
「 コ ミュ ニテ ィ ー」 と いう イン ター ネ 確か に 、 イ ン ネッ ト 上 に 集う 発 者 が 、Linux カー ネル の 開発 を 行 
ッ ト 上 に 集う 世界 中 の 「 ボ ラン ティ カー ネル 開発 者 は 皆 、Linus Torval うこ と か ら 経 済 的 な 利益 を 得 て い な 
ア 開 発 者 ] に よっ て 進め られ て いる 、 ds 氏 が メン テ ナ ン ス し て いる Linux いわ け で は あり ませ ん 。Linux の カ 
と 説明 され て いま す 。 こ の 説明 は 間 カー ネル の 開発 に 貢献 し て いま す ー ネ ル 開発 プロ モス に 加わ っ て いる 
人 違い で は な いも の の 、 現 在 の Linux その 対価 (金銭 的 な 報酬 ) を Torv 企業 に 所 属 


カー ネル 開発 の ス ま alds 氏 、 も し く は ] 
て 正しく 伝え て いる か と いう ェ ロ ー と 


て 所 属す 


alion か ! 


そう で は あり ませ ん 
で は 、 現在 の Linux カー ネル 開発 
の 現状 は 、 どの よう に 表現 する の が 


Torvalds 氏 が フ ス 2 

る Linux Found っ て い 
こと は あり ませ ん 5 

表 1 は 、Linux カー ネル 開発 に 貢献 

する 開発 者 を スポ ン サ ー ド する ( 開 


表 1 カー ネル 開発 者 の スポ ン サ ー と な っ て いる 企業 の トッ プ 30. 
企 の 『 
な も 2oB) | 6sma | 
1 な し 16 米 NVIDIA 
2 米 RedHat 9483 17 米 Freescale Semiconductor 
3 米 Intel 8108 18 台湾 Ingics Technology 
4 米 Texas Instruments 3814 19 ルネ サス エレ クト ロニ クス 
5 Linaro ( 非 営利 組織 ) 3791 20 米 Qualcomm 
6 独 SUSE 3212 21 米 Cisco 
7 不明 3032 22 The Linux Foundation ( 非 営利 組織 ) 
8 米 IBM 2858 23 アカ デミ ッ ク 
9 韓国 Samsung 2415 24 米 Advanced Micro Devices 
10 米 Google 2255 25 米 Inktank Storage 
11 米 Vision Engraving & Routing Systems 2107 26 米 NetApp 
12 コン サル タン ト 1529 27 SR NE MON 
13 英 Wolfson Microelectoronics 1516 28 富士 通 
14 米 Oracle 1248 29 米 Parallels 
15 米 Broadcom 1205 30 英 ARM 
修正 承 癌 者 の スポ ン サ ー に なっ て いる 流 上 の ト ッ プ 20 
寺 名 行 の 数 か 企業 
8 米 Red Hat 20369 。 2570% 11 Linaro ( 非 営利 組織 ) 2231 
2 The Linux Foundation ( 非 営利 組織 ) 9561 。 1200% 12 米 Parallels 1258 
オー スト リア LINBIT Infomation 
3 米 Intel 7244 910% 13 Tchnologes 930 
4 米 Google 4605 580% 14 米 Fusion-io 815 
5 な し 4155 5S20% 15 米 Broadcom 807 
6 独 SUSE 3275 4.10%% 16 コン サル タン ト 752 
7 韓国 Samsung 2684 340% 17 英 One Laptop Per Child 640 
8 英 Wolfson Microelectoronics 2474 3.10% 18 米 Wind River 595 
9 米 Texas Instruments 2372 3.00% 19 独 Pengutronix 587 
10 米 IBM 2245 280% es ー タ 六 島 MarvelL Techmofogy 580 070% 


\ The Linux Foundation の ホワ イト ペー パー [Linux Kernel Development: How Fast it is Going, Who is Doing lt, What They are Doing. and 


Who is Sponsoring It (2013 Edition)」 より 


/ 。 


(人 ) ( 社 ) 
人 。。。。 開発 者 の 人 数 B 開発 を 支援 し て いる 企業 の 数 
| 300L 間 還 昌 
1200. 


用 二 旧 旧 | 


2 2850 2855 2630 2665 ああ 26.15 2620 2625 2630 2635 30 各 so 
(カー ネル の パー ジョ ン ) (カー ネル の バー ジョ ン ) 
図 1 Linux カ ー ネ ル の 開発 者 数 ( 堪 ) と 支援 企業 数 の 推移 ( 右 ) 
The Linux Foundation の ホワ イト ペー パー [Linux Kemel Development: How Fast it is Going. Who is Doing lt, What They sre Doing, and Who is Sponsoring 
I] の 2012 年 版 お よび 2013 年 版 を 基 に 作成 し た 。 


写真 1 安定 版 カ ー ネ ル の メン テナー を 務 
め る Greg Kroah-Hartman 氏 


図 2 Linux カ ー ネ ル の 階層 的 な 開発 体制 
Greg Kroah-Hartman 氏 が 2012 年 に 横浜 で 開催 され た [LinuxCon Japan 2012] で 行なっ た 講演 の 資料 を 基 
に 作成 し た 。 


発 者 を 雇用 する ) 企業 の トッ プ 30 を 


示し て いま す 。 こ の 表 中 の 「 な し ]」 

「 不 明 」 (特定 で き な い ) を 合計 する Linux の 安定 版 カ ー ネ ル の メン テ ナ 源泉 と し て 、 洗 練 さ れ た 開発 プロ セ 
と 16.9% に な り ま す 。 つ まり 、 そ れ 一 を 務め る Greg Kroah-Hartman 氏 ス に よっ て 猛烈 な 勢い で 開発 を 進め 
以外 の 83.1% の 開発 に は 、 ど こ か し (写真 1) は し て いま す 。 も ちろ ん 、 開発 者 の 数 も 


ドン サー と し て 付い て と を 言い ます 。「2 ンティア 大幅 に 増え つつ あり ます ( 図 1) 


いる こと を 意味 し ます と し て Linux カー ネル の 開発 に 貢献 
また 、 修正 (パッチ 適用 ) 承認 者 ら こ と は 極め て 難し い 。 な ぜ な ら 、 カー ネル プロ セ ズ 
の スポ ン サ ー に な っ て いる 企業 の ト 5 つも 書け ば 、 ど こ か の 企 デー ニー ニン 


ッ プ 20 を p83 の 表 2 に 示し まし た 
パッ チ は 通常 、 い き な り カー ネル に 統 


業 か ら 強 力 な オフ ァ ー が あっ て 、 雇 
用 きれ て し まう か ら だ 」 


ネル の 開発 プロ 
ティ ー の 開 


で は 、Linux カー 
セス で ある 「 コ ミ 


合 さ れる の で は な く 、 ま ず は 後述 す つま り 、 現 在 の Linux カー ネル の 発 ] と は 一 体 ど も の な の で 
る サ プ シ ステ ム に 統合 され ます 。 メ 開発 は 、[ ティ ー」「 ボ ラン し ょ うか 。「 ティ ー」 と いう 
ン テ ナ ー は 、 サ プシ ステ ム へ の バッ  。 ティ ア 」| と いう 言葉 の 響き か ら 連 想 言葉 の 響き か つか * む か の よ 


チ 適 用 を 承認 に する 際 に 、 署 名 付き 
の タグ を 付け 加え ます 。 表 2 の 帳 名 
行 と は 、 こ の 著名 付き タグ が 付い た 
行 の 数 の こと で す 。 修 正 承 認 者 も 多 
く は 企業 か ら 金 銭 的 な 報酬 を 受け て 
いる わけ で す 。 

Linux Foundation の フェ ロー で 、 


きれ る 、 の ん びり と し た 牧歌 的 な も 
の で は な いわ け で す 。 世 界 中 の ブロ 
の 開発 者 た ち が 、 企 業 活動 の 一 環 と 
し て 開発 に 取り 組ん で いま す 。 そ し 
て 、 世 界 中 の 証券 取引 所 や 各種 社会 
イン フラ 、Android の スマ ー ト フォ 
ン 、 その 他 多 く の 家電 製品 を 動か す 


を 把握 し に くい 曖昧 検 机 
と し た も の を 想像 する 方 も 多い か と 
思い ます 

し か し 実際 に は 、Linux の カー ネ 
ル 開 発 コ ミュ ニテ ィ ー は 理路 整然 
と し た 組織 体 と 、 確 固 と し た 開発 ブ 
ロモ セス を 持っ で いま す 。Linux と い 


ニテ ィ ー の | 組織 図 ] を 図 
し まし た 。 こ の よう に 、 階 層 
で Linux カー ネル は 開発 さ 
れ て いる の で す 

- 番 下 の 階層 に は 、 3000 人 ほど の 
開発 者 が いる と いわ れ て いま す 。 そ 
れ ら の 開発 者 は 、 作 成 し た 修正 パッ 
チ を 、 上 位 の 「 ド ライ バ / フ ァイル の 
メン テナー」 に 送付 し ます 。 こ の ド 
ライ バ / フ ァイル の メン テナー は 700 
人 ほど で す 

ドラ イ バ / フ ァイル の メン テナー は 
開発 者 か ら 送 ッ チ の う 
ち 、 レ ビュ ー プ ロモ セス を 通過 し た も 
こ 上 位 層 の 「 サ プシ ステ ム 
の メン テナー」 に 送付 し ます 。 こ の 
サ プ シ ステ ム の メン テナー は 、 100 一 
130 人 希 す 

各 サ プシ ステ ム の メン テナー は 、 
「Sub System Tree」 と 呼ば れる 、 
彼ら 自身 が 管理 する ソー スコ ー ド ツ 
リー (カー ネル バッ チ 群 ) を 「kern 
elorg] と いっ た Web サ イト で 公開 
し て いま す 。 そ れ ら の Sub S 
Tree を 取り 込み 、 マ ー 
ド し て いる の が 「Linux-next Tree] 
で す 。 こ の Linux-next Tree の ビル 
ド は 、 基 本 的 に 毎日 実施 きれ ます 

サ プ シ ステ ム の メン テナー は 、 担 
る サ プ シ ステ ム ご と に 開発 を 進 
れ に より 、 あ る サ プ シ ス 


た 機能 追加 な どの コ 


の を さ : 


Stem 


写真 2 2014 年 5 月 20 ご 22 日 に 開催 され た 「LinuxCon Japan 2014] 


ー ド 改変 が 他 の サブ プ シ ステ ム 
響 を 及ぼ し て 、 ビ ルド が 
る こと が あり ます 。 そ 
は 、 関係 する メン テナー 
明 し て 、 修 正 し ます 
毎日 ビル ド が 行わ れ て いる の で 、 原 


Linux-next で 


7 間 の マー ジ 期 間 
中 に サ プ シ ステ ム の メン テナー か ら 


Torvalds 氏 られ 、Torvalds 氏 
る 「Mainline Kernel* 1 
リリ ー ス 


の Tree に マー ジ き され て 、 
へ と 至り ます *2 

Linux カー ネル の 開発 プロ セス は 、 
この よう に シス テマ チッ ク な も の で 
す 。 そ れ に も か か わら ず 、 開 発 者 
の 間 に は 何一つ 契約 関係 は あり ませ 
ん 。 イ ンタ ーネット 上 で 開発 し て い 
る の で 、 場 合 に よっ て は 面識 すら 無 


い 場 合 も ある よう で す 


視 き れる の は 「 

カー ネル こ 
し ば 、「Web of Trustl (信頼 の 連 
鎖 ) と 表現 きれ ます 。Torvalds 氏 は 
サ プ シ ステ ム の メン テナー を 信頼 
し 、 サ プシ ステ ム の メン テナー は 役 
ら と 一 緒 に 働く ドラ イ バ / フ ァイル 
の メン テナー を 信頼 し て いま す 。 こ 


の 信頼 関係 の 連鎖 こそ が 、 現 在 の カ 
ー ネ ル 開発 を 支え る 大 き な 原 動力 な 


の で す 


世界 各国 で イベ ント 賠 催 、 
ーーーー ン 


信頼 関係 を 築き 、 開 発効 率 を 向上 
させ る 、 対 面 (Face To [ ) 
で 議論 する こと も 大 事 で す 。 毎年 、 
日 本 を 含め て 世界 各国 で 開催 
いる 国際 技術 カン ファ レン ス 「Linu 
xCon] は 、 開 発 者 た ちの 信頼 関係 を 
醸成 する 場所 と し て 機能 し て いま す 

海外 を 含む 開発 者 と 交流 し 、 信 頼 
関係 を 構築 する 最短 経路 は 、 自 ら Li 
nuxCon で 発表 する し ょ う 
LinuxCon に は 、 各 分 野 で 有力 な カ 
ー ネ ル 開発 者 が 参加 し て お り 、 場 合 
に よっ て は 的 確 な アド バイ ス を 受け 
られ ます 

2014 年 5 月 20 日 か ら 22 日 まで 、 日 
本 で 開催 され た 「LinuxCon Japan 
2014] に は 、 世 界 20 カ 国 か ら 、 約 
600 人 の 技術 者 が 参加 し まし た 。 Tor 
valds 氏 も 講演 の た め 来 日 。 「Linux: 
Where Are We Going] と 題し て 、 
米 Intel 社 の Chief Linux and Open 
Source Technologist、Dirk Hohnd 
el 氏 と 対談 し まし た (写真 2) 
そこ で 、Linux カー ネル 開発 の 好 
調 ぶ り を 強調 し まし た 


制 と し て 、 メ ン テ ナ ー の 重 - 粘 還 W 
れ 、「3700 人 も の 開発 者 が 全員 、 開 
ッ チ を 私 に と 


発し た パ 


くれ る メン テナー が 不可 
欠 だ 」 と 語り まし た 


* ネ 1 Linus が メン テ ナ ン ス を する Linux カ ー 
ネル は 、「Mainline Kermel] や 「Up Stream 
Kernell な ど と 呼ば れ ま す 。 

* ネ 2 Linux カ ー ネ ル は 、 1 バー ジョ ン 当 た り 約 
2 カ月 で 開発 され て いま す 。 そ の うち 、 新 し い バ 
ッ チ を 受け 付け る 期間 を 「 マ ー ジ 期間 (Merge 
Period) 」 と 呼び 、 そ の 長 さ は 約 2 週間 で す 。 


カー ネル の ソー スコ ー ド は 誰 で も 入手 で きま す 。 
最新 カー ネル を コン バイ ル し て イン スト ー ル で きる 状態 に ビル ド し 、 Linux に 導入 し て み ま し ょ う 。 


最近 の ディ スト リ ビ ュ ーション で 
は 、 カ ー ネ ル の イン スト ー ル や リ ビ 
ジョ ン * 管 理 に も 、 パ ッ ケ ー E 
シス テム を 利用 し ます て 、 自 
分 で カー ネル を ビル ド ま し て 利用 す 
る 場合 で も 、 パ ッ ケ ー ジ * を 作成 す 
る や り 方 が お 勧め で す 。 カ ー ネ ル を 
パッ ケー ジ 管 理 の 棒 か ら 外 し て し ま 
う E ジ ュー ルキ に 依存 
する X Window System* の ドラ イ 
パ を リポ ジ ト リー* か ら イ ンス トー 
な く な る と いっ た 上 弊 害 
と が ある か ら で す 

こ で は 、Linux ディ スト リ ビ ュ 
ショ ン 「Debian」 の 32 ビ ッ ト 版 
(「http://www.debian.org/」 か ら 入 
手 ) に 、 最 新 の カー ネル を パッ ケー 


と 、 カ ー ネ ル 


開発 ツー ル を イン スト ー ル 


カー ネル の 構築 に は コン パイ ラ な 
どの 開発 ツー ル が 必要 で す 。 Debian 
を イン スト ー ル し た PC を 用 


cieJPo ま ほれ 2) 


写真 1 Debian の デス クト ッ プ 画面 
2014 年 7 月 12 日 ( 


$ su 日 

# apt-get update 口 

# apt-get fnsta1] bu1i1d-essent 
1al bc kernel-package 11bncurs 
es5-dev ロ 


な お 、Ubuntu で は 1 つ 目 の コマ 
ンド は 不要 で す 。2 つ 目 や 3 つ 目 の 
よう に プロ ンプ ト が 「#| と 記載 し 
て ある 場合 は 、 以降 の 作業 を 含め 
コマ ンド の 先頭 に 「sudo」 を 付け て 


くだ さい 


バニ ラ カ ー ネ ル を 利用 する 
Linux カー ネル 開発 の 総本山 は 


メジ ャ ー バ パー ジョ ン サブ バー ジョ ン 


od 
3 品 63 


図 1 カー ネル の バー ジョ ン 番 号 
プ バ パー ジョ ン で す 。 新規 機能 を 取り 
込ん だ り 、 内 部 構造 が 変わ っ た り し 
た 際 に は メジ ャ ー バ パー ジョ ン が 更新 
され ます 。 サ プ バ パー ジョン の 更新 で 
は 、 基 本 的 に 新 機能 は 搭載 され ず 、 
定性 向上 の た め の 変 更 
の み が 行 われ ます 

- 通 り の パグ フィ ックス と 安定 
性 の 確認 が 行わ れ た カー ネル ソー ス 
は 、 ア ー カ イプ され て 公式 の FTP 
サイ ト (ftp://ftp.kernelorg/) に ア 


「kernelorg」 (https://www.kernel. 
org/) で す 。Linus Torvalds 氏 を 
リー ダー に カー ネル の 開発 ら 
れ て お り 、 開発 中 の カー ネル ソー ス 
ジ ト リー (http 
参照 で きる よう に は 、 


の git リ 
nelorg/cgi(/) が 


いま す 


ソバ ピン ソヨン 


最後 の 「3] が サ 


Debian 7.6.0] で カー ネル を ビル ド し た 。 


は 「3.163] の よう に 
ョ ン 番 号 が 付い て いま す 
1)。 こ の 例 の 場合 、「3.16] が 


ッ プ ロー ド さ れ ま す 。 こ の 公式 FTP 
サイ ト に アッ プロ ー ド され た カー ネ 
ルソー ス は 「 バ ニラ カー ネル *1| な 
ど と 呼ば れ ま す 

Linux ディ スト リピ ビュ ー シ 


ディ スト リ ビ ュ ー タ ー が 


カー ネル に 独自 に パッ チ * を 
カー ネル が 利用 され て いま す 
性 の 向上 や 新しい 機能 の パッ ク ポ ー 
ト *、 パ ニラ カー ネル に 統合 され て 


( 


【 リ ビジ ョ ン 】 ソフ トウ エア の 不具 合 な ど を 修正 し た 改訂 版 の こと で す 。 一 
般 的 に 番号 な ど を 付与 し て 管理 し ます 。 

【 ビ ルド 】 コン バイ ル や 、 ラ イブ ラリ と の リン ク を 実施 し 、 実 行 で きる 状態 に 
し ます 。 後 述 す る パッ ケー ジ 化 も ビル ド の 作業 に 含ま れ ま す 。 

【 バ パッケージ 】 ソフ トウ エア を 簡単 に イン スト ー ル で きる 状態 に し た も の で 
す 。 イ ンス トー ル も 削除 も コマ ンド 1 つ で 実行 で きま す 。 

【 カ ー ネ ル モジ ュー ル 】 カー ネル に 組み 込め る 小さ な ソフ トウ エア で す 。Li 
ux カー ネル で は 、 さ ま ざ ま な 机 能 を カー ネル モジ ュー ル 化 し て いま す 。 そ れ に 
よっ て 、 必 要 な 村 能 だ け を 組み 込め る よう に し て カー ネル 全体 の サイ ズ を 抑 
えて いま す 

【X Window System] デス クト ッ プ 画面 の ウィ ンド ウ を 描画 する ソフ ト で 
す 。 正 し く 表示 させ る に は 、PC に 実装 され た グラ フィ ックス イン タフ ェ ー ス に 
ドラ イ バ が 必要 で す 。 

リー】 Li ディス トリ ビュ ーション ご と に イン スト ー ル で きる パッ ケ 
ー ジ を 管理 * 保 存 し て いる サイ ト で す 。 こ の サイ ト は イン ター ネッ ト 上 に 配置 
れ て いて 、APT や YUM な どの コマ ンド を 使っ て パッ ケー ジ を 導入 で きま す 。 
【 バ パッ チ 】 修正 を 適用 する プロ グラ ム で す 。 ソ ー ス コー ド に 適用 する パッチ 
は 差分 情報 が 書か れ た テキ スト ファ イル と し て 提供 され ます 。 


* ま 1 誰が 言い 出し た の か は 分 か り ま せん が 、Android の 開発 者 な どの 間 
で 使わ れ て いた 呼称 が 広まっ た も の と 思わ れ ま す 。 特 別 な フレ ー バ ー (風味 
付け ) が な いと いう 程度 の 意味 で し ょ う 。 
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gy 最新 カー ネル の アー カイ ブフ ァイル を 確認 する 
バー ジョ ン 番 号 が 最も 大 きい も の が ダウ ン ロ ー ド すべ き フ ァイル だ 。 


し | バー ジョ ン 番号 が 
最も 大 きい を 探す 


# make oldconfig 器 
(中 中 ) 
scripts/kconf1g/conf --o1dconffg Kconfig 
・conffg:507:warning: symbo]l value "m' fnvaltd for ACPI_PCI_SLOT 
・conffg:509:warning: symbol value "m' invalid for ACPI_CONTAINER 
・conf1g:1623:warn1n9: symbol value " 是 ' 1nvalfd for BMPO85 
・conff9:3128:warn1ng: symbol value "mW' 1nvalfd for POWER_SUPPLY 
.conf1g:3373:warning: symbol value 'm' 1nvalid for MFD_MM8400 
・conf1g:4923:warnfng: symbol value "mm' 1nvalid for COMEDI_MISC_DRIVERS 
・conffg:4930:warning: symbol value "m' fnvalid for COMEDI_ISA_DRIVERS 
・conffg:4972:warning: symbol value "m' fnvalid for COMEDI_PCI_DRIVERS 
・conffg:5029:warnfng: symbol value "mm' fnval1d for COMEDI_PCMCIA_DRIVERS 
・conffgi5037:warnfng: symbol value "mfnvalfd for COMEDI_USB_DRIVERS 
+ 
* Restart conf19.… 
円 
円 
* General setup 
円 
Cross-compiler tool preffix (CROSS_COMPILE) [] 
Compfle also drivers whtch wil1 not 1oad (COMPILE_TEST) [N/y/?] (NEW) 避 
Local version - append to kernel release (LOCALVERSION) [] 
Automatical1y append versfon informatfon to the version string (LOCALVE 
RSION_AUTO) [N/y/?] n 
Kernel compression mode 

・Gzip (KERNEL_GZIP) 

・Bzip2 (KERNEL_BZIP2) 

・ LZMA (KERNEL_LZMA) 

・XZ (KERNEL_XZ) 

・ LZ0 (KERNEL_L20) 

・LZ4 (KERNEL_LZ4) (NEW) 
chofce[1-6?]: 1 


図 3 カー ネル の 設定 を 更新 
新しく 追加 され た 項目 だ け 設定 で きる 。 


いな い ド ライ バ の 追加 な ど 、 パッ チ 
を 当て る 理由 は きま ざま で す 。 Debi 
an や Ubuntu で も それ ぞ れ 独自 に パ スト ー 
ッ チ を 当て た カー ネル を 採用 し て お 
り 、 そ の ソー スコ ー ド は リポ ジ ト リ 


ー か ら 入 手 で きま す 

ここ で は 、 バニ ラ カ ー ネ ル を イン 
ル し ます *2。 公 式 FTP の 国 
内 ミラ ー サ イト に アク セス し 、 次 の 
よう な URL で 、 最 も 新しい パージ 


ョ ン の アー カイ プ フ ァ イ ル ま を 入手 
し て くだ さい ( 図 2) 


2014 年 9 月 下旬 時 点 で は linux- 
3.163 が 最新 で し た = 「tar+gzip] 形 
式 と 「tar+xz] 形式 の アー カイ プ フ 
ァイル が アッ プロ ー ド され て いま す 
(tar+xz 形 式 を 本 誌 付録 DVD に 収 
録 )。 ど ちら を 使っ て も 構い ませ ん 
一 般 に 、 カ ー ネ ル の ソー スコ ー ド は 
「/usr/src」 ディ レク トリ ー 以 下 に 
格納 し て 作業 する の で 、 こ こ で も そ 
の 作法 に 従い ます 


これ で 「/usr/src/linux-3.163] デ 
ィ レ クト リー 以下 に ソー ス ツ リ ー* 
が 展開 され まし た 


カー ネル の コン フィ グレ ーション 

続い で て 、 カ ー ネ ル の コン フィ グレ 
ーション (設定 ) を 実施 し ます 。De 
bian や Ubuntu で は 、 極 め て 多く の 
カー ネル モジ ュー ル を 作成 する よう 
に 設定 され て いま す 。 手 作 業 で 同じ 
よう に 設定 する の は 大 変 で す 。 

そこ で 、 今 使っ て いる カー ネル の 
設定 ファ イル を 流用 する こと に し ま 
す 。 次 の よう に し て コピ ー し て くだ 


さい 


| っ ター 
_ 。 玉水 


コピ ー レ し た 設定 は 、 古い カー ネル 
の も の な の で 、 そ の まま で は 適用 で 
きま せん 。 図 3 の よう に アッ プ デ ー 
ト し ます 。 

前 述 の よう に 、Debian や Ubuntu 
に は 独自 に パッ チ を 当て た カー ネル 
が 使わ れ て いま す 。 そ の 設定 を 流用 
する と 、 ア ッ プ デー ト 途 中 で 「warn 
ing] (警告 ) が 発生 し ます が 、 無 視 
し ます 。 

基 に し た ファ イル は 、 証 い カー ネ 
ル の 設定 な の で 、 最新 カー ネル で 追 
加 き れ た 設定 項目 ([New」 と 表示 
され て いる も の ) の 科 所 で 止ま り ま 
す 。 基本 的 に 新しい 設定 項目 は デフ 
ォ ル ト (初期 状態 ) の まま し て お く 
の が 安全 な の で 、 [Enter] キー を 押 
し て 進め ます 。「Kernel compressi 
on mode」 の 圧縮 モー ド の 設定 に つ 
いて は 必ず 尋ね で きま す 。「1]| を 選 
ん で くだ さい 。 


カー ネル バッ ケー ジ の 作成 

コン フィ グレ ーション を 終え た 
ら カ ー ネ ル バッ ケー ジ を 作成 し ま 
す 。 パ ッ ケ ー ジ の 作成 に は 「make- 
kpkg] スク リプ ト を 用 いま す 。 

make-kpkg ス クリ プ ト の 実行 に 
先だって 、 ビル ド 作 業 の 効率 が 高 ま 
る よう に 、 環 境 変数 の 「CONCURR 
ENCY_LEVEL」 に 値 を 設定 し て お 
く と よい で し ょ う 。4 つ の コア を 持 
つ CPU が 1 差 搭載 され て いる PC の 
場合 、 


と 入力 し て 「5」 を 設定 し ます 。 こ 
の 環境 変数 に CPU の コア 数 に 1 を 加 
えた 程度 の 値 を 設定 し て お く と 、 コ 
ン パ イル な どの 作業 時 に その 数 だ け 
処理 が 並列 に 実行 きれ 、 実 行 時 間 が 
短く な り ま す 。 


以上 の 設定 を 終え た ら 、「/usr/ 
src/linux-3.163] を カレ ント ディ レ 
クト リー に し て 次 の よう に スク リプ 
ト を 実行 し ます 。 


「-initrd] は 、Debian や Ubuntu 
が 起動 時 に 使う ファ イル シス テム 
[initramfs] の イメ ー ジ を 作成 する 
指定 で す 。 現 在 の Debian や Ubuntu 
で は カー ネル パッ ケー ジ の イン スト 
ー ル 時 に initramfs が 作ら れる 仕組 
み に な っ て いま す 。 jnitramfs の スク 
リプ ト に つい て 若干 の 注意 が 必要 で 
す 。 そ れ に 関し て は カー ネル を イン 
スト ー ル する 箇所 で 説明 し ます 。 

「-append-to-version] に は 、 カ ー 
ネル バー ジョ ン の 末尾 に 付け る 文字 
列 を 指定 し ます 。 こ の オプ ショ ン は 
な く て も 構い ませ ん が 、 自分 で ビル 
ド し た カー ネル で ある こと が 分 か る 
よう に 任意 の 文字 列 (ここ で は 「cus 
tom」) を 付け て お く と よい で し ょ う 。 
また 「--revision] で リビジョン 番号 
を 付与 で きま す 。 

「kerneLimage」 を 指定 する と 、 
カー ネル の パッ ケー ジ を [linux- 
image- バ パージ ョ ン 番 号 - リ ビジ ョ ン 
番号 ~ ア ー キ テク チャ ー 名 .deb」 の 
ファ イル 名 (ここ で は 「linuxdimage- 
3.16.3custom_1.0.i386.deb* 引 ) で 
作成 し ます 。 ま た 、「kernelLheade 
Ts] を 指定 する と 、 ヘ ッ ダ ー フ ァ イ 
ル * の パッ ケー ジ を 「linux-headers- 
バー ジョ ン 番 号 _. リ ビジ ョ ン 番 号 _ 
アー キテ クチ ャ ー 名 .deb] の ファ 
イル 名 (ここ で は 「linux-headers- 
3.16.3custom_1.0_i386.deb]) で 作成 
し ます 。 最低 限 、 こ の 2 つの ファ イ 
ル が 必要 で す 。 


make-kpkg ス クリ プ ト の 実行 が 
終わ る まで 待ち ます *4。 一 般 的 な 
PC で は 、1 時間 以上 か か り ま す 。 


新しい カー ネル の 導入 
作成 され た 2 つの パッ ケー ジ を イ 
ンス トー ル し ます 。 そ の 前 に 「/etc/ 
kernel/postinsLd] ディ レク トリ ー 
以下 に initramfs-tools] また は [in 
itramfs] の スク リプ ト が ある こと を 
確認 し ます 。 こ れ が な いと 、 initra 
mfs の ファ イル が 作成 され ませ ん 。 


も し 存在 し な い 場 合 は 、 次 の 
よう に 「/usr/share/doc/kerne ト 
package」 ディ レク トリ ー 以 下 に あ 
る initramfs ス タク リプ ト を コピ ー し 
て お きま す 。 


【 バ ッ ク ボ ポー ト 】 新しい カー ネル の 机 能 を 、 古 
い バ パー ジョ ン の カー ネル に 盛り 込む こと で す 。 
一 般 的 に Llnux デ ィ スト リ ビ ュ ーション は 、 安 定 
性 や バッ ケー ジ の 一 貫 性 を 維持 する た め 自 身 
の バー ジョ ン を 変え な い 限り 、 新 し い バー ジョ ン 
の カー ネル に 切り 替え る こと は めった に あり ませ 
ん 。 新 し い カ ー ネ ル に 実装 され た 機能 が 欲し い 
と き に バッ クボ ポート が 行わ れる こと が あり ます 。 

【 ア ー カ イプ ファ イル 】 複数 の ファ イル を 1 
つ に まとめ た ファ イル で す 。 圧縮 す る ケー ス も 
あり ます 。 展 開 す れ ば 、 元 の 状態 に 戻り ます 。 
【 ソ ー ス ツリ ー】 いく つか の ディ レク トリ ー に 
分 けら れ て 保存 され て いる ソー スコ ー ド 群 で 
す 。 デ ィ レク トリ ー が ツリ ー 構 造 を 採る こと と か ら 
ツリ ー と 呼ば れ て いま す 。 

【 ヘ ッ ダ ー フ ァイル 】 変数 や 識別 子 、 関 数 な 
どの 宣言 に 使わ れる ファ イル で す 。 


*2 後述 する よう に 、 問 題 が 生じ て 元 の カー 
ネル に 戻さ ざる を 得 な く な る こと も あり ます 。 

* キ 3 32 ビ ッ ト の 場合 。64 ビ ピッ ト で は 「iS86] 
が 「amd64] に な り ま す 。 

キ 4 カー ネル の 設定 を 変更 し make-Kpkg 
コマ ンド を 再 実行 する 場合 、 必 ず 次 の コマ ンド 
を 実行 し て パッ ケー ジ を 作成 し た と き の デ ー タ 
を 削除 し て くだ さい 。 


# make-kpkg c1ean ロ 


ヨコ ヨン バイ ル じ し で みよ 


# mkdir -p /etc/kerne1l/postins 
t.d 品 

# cp /usr/share/doc/kernel-pac 
kage/examples/etc/kerne1/post1 
nst.d/1nitramfs /etc/kerne]/po 
stinst.d/. ロロ 


以上 の 確認 を 終え た ら 、 次 の コ 
ンド を 実行 し て 2 つの パッ ケー ジ 
イン スト ー ル し ます 


RY 4 


# dpkg -1 /uSr/src/11nux-1mage 
-3.16.3custom_1.0_1386.deb 品 

# dpkg -1 /usr/src/11nux-heade 
rs-3.16.3custom_1.0_1386.deb 中 


途中 で 、 設 定 ミ ス や ビデ オカ ー ド 
用 の ドラ イ バ が 原因 の エラ ー が 出る 
か も し れ ま せん 。 エラ ー が 出 た と し て 
も 、 イ ンス トー ル 処 理 は 最後 まで 進 
み ま す 。 イ ンス トー ル 後 、 図 4 の よう 
に 「/bootll ディ レク トリ ー 内 に 4 つ 
の ファ イル が ある こと を 確認 し ます 


シス テム 再起 動 と バー ジョ ンチ ェ ッ ク 

イン スト ー ル し た 新しい カー ネル 
で Debian を 起動 きせ る た め に シス 
テム を 再起 動 し ます 


# reboot 回 


無事 に 起動 し た ら 次 の コマ ンド を 
実行 し 、 カー ネル の パー ジョ ン が 変 
わっ た こと を 確認 し ます 


Suname -『 申 
3.16.3custom 


以上 で 、 新 し い カ 
完了 し まし た 


ー ネ ル の 導入 が 


古い カー ネル に 戻す 
新しい カー ネル で 起動 し な い 、 あ 


る い は 起動 後に 画面 が 出 な いと いっ 
た 事態 に 陥る 場合 


も あり ます 。 全く 


ま 1s /boot/*3.16.3* 器 


/boot/System.map-3.16.3custom /boot/vmlinuz-3.16.3custom 


/boot/config-3.16 .3custom 


/boot/1nftrd.1mg-3.16.3custom 


図 4 ビル ド し た カー ネル が イン スト ー ル され て いる こと を 確認 する 


Dcblorn GNU/ し Linux。 Ith し imux 3.16.3custoe 


起動 し な り 場 合 は 、 
ネル 設定 の ミス が 
す 。 後述 する 古い カー 
する 方 法 を 用 いて Linux を 立ち 上 げ 
て 、 ビ ルド し 直す と よい で し ょ う 
画面 が 出 な い 、 あ る い は 画面 が 低 
解像度 に な る 原因 の 一 つ に 、 米 NV 
IDIA 社 また は 米 Advanced Micro 
Devices (AMD) 社 の ビデ オカ ー ド 
用 プロ プラ イエ タリ ー ド ライ バ * の 
利用 が あり ます 。Ubuntu で は リポ 
ジ ト リー か ら プ ロ プ ライ エタ リー ド 
ライ バ の イン スト ー ル が 可能 で す 
それ を 利用 し て いる と 、 カ ー ネ ル イ 
ンス トー ル 時 に ドラ イ バ の 自動 コン 
パイ ル や リン ク る 「dkms] 
コマ ンド に よっ て 、 カ ー ネ ル モジ ュ 
放し よう と し ます 
ル で は その カ ヵ 
ー ネ ル モジ ュー ル を 作成 で き な い こ 
と が 多く 、 ま た 自分 で ドラ イ バ を 構 
築 する の も 難し い の で す 。 次 
普 の 策 と し て 、 プ ロ プ ライ エタ リー ド 
ライ バ で は な く 、 オ ー プ ン ソ ー ス の ド 
ライ バ を 使う よう に X Window Syst 
em の 設定 を 見 直す と よい で し ょ う 


根本 的 な カー 


ーー 円 


と 


図 5 古い カー ネ 
ル を 起動 する 
表示 され た 起動 メニ 
ュー で 古い カー ネル 
を 選ん で 立ち 上 げ る 。 

新しい カー ネル で は うま くい か な 
い 場 合 は 、、 ビ ルド し た カー ネル を 削 
除 し て 古い カー ネル に 戻し ます 。 手 
順 は 、 次 の 通り で す 。Debian の 起 
動 メ ニュ ー に 古い カー ネル で 立ち 上 
げ る 項目 が あり ます ( 図 5)。 カ ー ソ 
ルキ ー で それ を 選ん で [Enter] キ 
ー を 押し ます 。 こ れ で 証 い カー ネル 
で Debian が 起動 し ます 

My の デス クト ッ プ 画面 が 開 

た ら 端 末 を 立ち 上 げ て 、 


3 su 中 

# dpkg --remove 11nux-1mage-3. 
16.3custom 回 

# dpkg --remove 11nux-headers- 
3.16.3custom 回 


を 実行 し ます 。 実行 中 に 警告 メッ セ 
画面 が 表示 きれ ます 。 こ れ で ビ 
ルド し た カー ネル が 削除 され 、 次 回 
起動 時 か ら 古 い カ ー ネ ル で Debian 
が 起動 し ます 


【 プ ロ プ ライ エタ リー ドラ イ バ 】 ソー スコ ー ド 
や 仕様 、 構 造 な ど が 公開 され て いな い ドラ イ バ 
で す 。 ビ デオ カー ド 用 は 、 グ ラフ ィ ックス チッ プ 
開発 メー カー が 作成 ・ 提 供し て いま す 。 


注目 の コン テナー 技術 


CPU や 中 旧記 な どの 資源 を うま く 制 御 し て 1 つの Linux 上 で 複数 の Linux を 動作 させ る 
ジテ ナー 技術 が 話題 で す 。 その コン テナー 技術 に つい て 詳し く 紹介 し ます 。 


[ 週 罰 ] コン テナー と リソー ス 制 御 
リソー ス を 管理 する cgroup w 

[ 周 ] 独立 し た 環境 を 作れ る namespace % 
[ 樹 鞭 ! アプ リケーション 配備 基盤 の Docker' ss, 


注目 の ヨシ ジン 玩 二 技術 


Linux カー ネル か ら 見 た 「 コ ン テ 
ナー」 機能 に つい て 、4 パ ー ト に 分 
け て 説明 し ます 。 機能 の 詳細 な 解説 
に 入る 前 の 下 準 備 と し て 、Partl は 
「 コ ン テ ナ ー」 と は 何 か 、 現 状 は ど 
うな っ て いる か と いう 
を 当て ます 。 そ の 上 
能 が 利用 し て いる 、Linux カー ネル 
の 機能 概要 を 見 て いき まし ょ う 


コン テナー 機能 と は 
Linux で 仮想 化 と いう と 、KVM 
や Xen な ど を 思い 浮か べ る か も し れ 
ませ ん 。 そ れ ら は コン ピュ ー タ ( ハ 
ー ド ウエ ア ) を 仮想 化し 、 物 理 サ 
ー バ パー 上 に 仮想 マシ ン を 作り 出し ま 
す 。 こ れ に 対し て 本 章 で 取り 上 げ る 
コン テナー 機能 は 、0S を 仮想 化し 
て 、0S 上 に 隔離 され た OS (実行 時 
境 、 す な わ ち コン テナー) を 作り 出 


コン テナー 機能 利用 時 の 階層 


し ます 


う オ ー バ ー ヘ ッ 


前 者 に 比べ て 、 仮想 化 に 伴 
ド を 抑え られ ます 

コン テナー 機能 に つい て は 、Ii 
nux 上 で も 以前 か らい ろ い ろ な 取 
り 組 み が 行わ れ て きま し た 。 例 え 
ば 、( カ ー ネ ル と は 別 空間 で 動作 す 
る ) ユー ザー ラン ド * で 実 壮 し た 
「Linux-VServer] や 、 独 自 カ ー ネ 
ル バ パッ チ 込 み の 商用 コン テナー「Op 
enVZ」 な ど が そう で す 

た だ 、 現在 メジ ャ ー に な りつ つ あ 
る の は 、Linux カー ネル に 組み 込ま 
れ て いる 「cgroup」 機能 と [names 
pace」 機能 の 2 つ を 利用 し 、 カ ー ネ 
ル パ ッ チ を 当て る 必要 の な い コ ン テ 
ナー 機能 で す ( 図 1)。 こ れ ( 
する コン テナー 機能 に は 、「LXC」 
[iibyirLLXC」 「systemd-nspawn」 
「Docker」 な ど が あり ます 


@LXC 

2014 年 2 月 に バー ジョ ン 10 が リ 
リー ス さ れ ま し た 。 Ubuntu な どか 
ら 利 用 し や すく 、 ま た 機能 も 豊富 な 
の で 、 広く 使わ れ て いま す 
ナー に 各種 Linux デ ィ ス トリ ビュ ー 
ショ ン 相 当 の 環境 を 作る ディ スク イ 
メー ジ (テン プレ ー ト ) が 用 意 され 
て お り 、 例 えば Ubuntu 上 の コン テ 
ナー を Fedora 相 当 の 環境 に する と 
いっ た こと が 容易 に で きま す 


コン テ 


e libvirLLXC 

各種 仮想 環境 (例え ば 、KVM や 
Xen に よっ て 作り 出 きれ た 仮想 マシ 
ン ) を 制御 する た め の 共 通 API を 


うた っ て いる 「libvirt] の ネイ ティ 
プ コ ン テ ナ ー で す 。libvirt の 開発 ブ 
ロジ ェクト に よっ て 提供 され て いま 
す 。 ツ ー ル 類 が 充実 し て いる と は い 
えま せん が 、 構成 な ど に 自由 が 利き 
ます 。(libvirt に よっ て ) API が き 
っ ちり 定義 され て いる こと も る 特徴 の 
1 つ で す 。 OS 仮想 化 よ り も 、 ア プリ 
ケー ショ ン 隔 苑 に 重き を 冒 いて 機能 
が 強化 さき れ て いる よう で す 


@ syStemd-nSpawn 

シス テム の 初期 化 プ ログ ラム で あ 
る 「systemd* | に よっ て 提供 きれ 
る コン テナー 機能 で す 。 「systemd- 
nspawn」 と いう コマ ンド に 、 実 行 し 
た い プ ログ ラム を 引数 で 渡す と その 
プロ グラ ム を 簡易 コン テナー 内 で 実 
行 し て くれ ます 。 デパ ッ グ や ヤ や テ スト 
を 行う た め の サ ンド ボッ クス と し て 
利用 され る こと を 意図 し て デザ イン 
さき され で てい ます 。 つ まり 、 コ ン テ ナ ー 
内 で 少々 危険 た こと を し て も 外部 
に 影響 が 生じ な いよ うな 環境 を 作る 
目的 に フィ ッ ト し ます 


@ Docker 

現在 最も 勢い の ある コン テナー 
機能 と いえ ば 、 こ の 「Docker」 で す 。 
アプ リケーション を 配備 する た め の 
基盤 ソフ トウ エア と し て 使わ れ て い 
ます 。 ア プリ ケー ショ ン と その アプ 
リケーション の 動作 に 必要 な ライ ブ 
ラリ や 依存 パッ ケー シ 「 コ ン 
テナー」 と じ で ひと まとめ に し て 配 
備 し ます 。 こ れ に よっ て 、OS 環 境 


に 依存 せ ず に アプ リケーション を 配 


備 で きま す 。 つ まり 、 あ る 環境 に ア 
プリ ケー ショ ン を イン スト ー ル する 
場合 に 「 依 存 関係 が 解消 で き な い の 
で 、 イ ンス トー ル に 失敗 する 」 「 非 
互換 の ライ ブラ リ が 導入 され て いる 
の で 動作 し な い 」 と いっ た 面倒 な ト 
ラブ ル の 発生 を 回 遊 で きま す 

2014 年 6 月 に パー ジョ ン 1.0 が り リ 
ー ス され まし た 。 今 、 最 も 熱い OSS 
の 1 つ だ と 思い ます 


リソー スズ を 制限 する cgroup 

コン テナー 機能 た は コン モ プ ト や 
9 異な る 多様 な も ね の が ある こと 

が 分 か り ま し た で し ょ うか 。 LXC や 
virLLXC、 systemd-nspawn、 Do 
cker が 共通 し て 利用 し て いる カー 
ネル の 機能 が 、 前 述 し た よ 
ouD お よび namespace で す 
れ ど の よう な 機能 な の か を 見 て み ま 
し ょ う 

cgrouD は 、 プ ロモ セス の グル ー プ に 
対し て 使用 可能 な リソー ス (CPU、 
メモ リー、I/O な ど ) を 制限 する 機 
能 で す 。 例 えば 、 ア プリ ケー ショ ン 
投 B に 対し て CPU 使用 量 を 4 : 

に 設定 する と 、A お よび B に よっ て 
CPU 2 「 ビ ジー 状態 」 に な 
っ た 場合 に は 、CPU の 使用 率 が 4 
KK ュー ラー* が 制 
御 し ます 。cgroup で は CPU の ほか 、 
メモ リー や スワ ッ プ * 量 、1/O 芝 域 
な ど を 制御 で きま す 。 最 近 で は syst 
emd 経由 で 、 シ ステ ム の サー ビス が 
利用 する リソー ス 量 も る コント ロー 


うに cgr 


それ ぞ 
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グラ ム で す 。 


ます 。 
ー ド ディ スク に 退避 する た め の 領 域 で す 。 


Partl 


【 ユ コー ザー ラン ド 】 OS を 構成 する カー ネル 以外 の 部 分 を 指し ます 。 
【systemd】 Linux の シス テム 起動 ・ 終 了 と 、 各 種 サ ービス の 起動 ・ 停 止 を 管理 する プロ 


【 ス ケ ジ ュ ー ラ ー】 ここ で は 「 プ ロ セ ス ( ま た は タス ク ) スケジュー ラー」 の こと で す 。 複 
数 の プロ セス や スレ ッ ド が 公平 に CPU を 使え る よう に 、 利 用 時 間 を スケ ジュ ー 


【 ス ワッ プ 】 メモ リー 不足 に 陥っ た と き に 、 あ まり 使わ れ て いな い メ モリ ー の 内 容 を ハ 


コン テナー と リソー ス 制 御 


リン グ し 


namespace X 


各 情 報 や オブ 


ジェ クト は 名 
前 空間 ご と に 
変更 可能 


すべ て の プロ セス は い 
ずれ か の namespace に 
所 属す る 


図 2 名 前 空間 ご と に 異な る 値 を 持て る 


空間 を 分 苑 す る namespace 

も う 1 つ の namespace は 、 名 称 
通り の 「 名 前 空間 ] を いく つか 作 
っ て 、 名 前 空 上 g 想 化す る 機 
能 で す 。 例 えば 、 カ ー ネ ル は ホス ト 
名 を 内 部 に 保持 し て お り 、 ア プリ ケ 
ーション は それ を 「gethostname0)」 
と いう シス テム コー ル で 読み 出せ ま 
す 。 ホ スト 名 は 通常 シス テム に 1 つ 
し か 存在 し ませ ん が 、namespace 機 
能 を 使っ て 複数 の 名 前 空間 を 


する と 、 名 前 空間 ご と に 異な る 値 を 
持て る よう に な り ま す 。 例 えば 、 あ 
る 名 前 空間 の アプ リケーション 1 に 


は A、 別 の 名 前 空間 の アプ リ ケ ー シ 
ョ ン 2 に は B と いう よう に 、 異 な る 
ホス ト 名 を 返せ ます ( 図 2) 
namespace に は 、 ホ スト 名 や ネッ 
トド ワー クイ ンタ フェ ー ス 、 プ ロ セ ス 


他 の namespace の 情報 や オブ ジェ クト に は 、 
基本 的 に アク セス で き な い (default name 
space が 特別 扱い され る こと も ある ) 


ID な どの 種類 が あり ます 。 ある 名 前 
空間 内 で 動作 する 個々 の プロ セス 
に 対し て 、 名 前 空間 固有 の 情報 を 提 
供し ます 。 コンテナー 機能 以外 の 使 
用 例 で は 、 例 えば systemd に は サー 
ビス に 対し て 専用 の 「/tmp」 ディ 
レク トリ ー を 持た せる 機能 (private 
tmpfs) が あり ます が 、 こ れ は nam 
espDace の 機能 を 使っ て 実現 (/tmp 
の マウ ント 情報 を namespace で 仮 
想 化 ) し て いま す 
先述 の cgroup で は コン テナー 内 
の アプ リケーション が 利用 で きる リ 
ソー ス の 量 を 制限 し 、namespace で 
は コン テナー 内 の アプ リケーション 
に 対し て コン テナー に 固有 の カー 
ル 情 報 を 提供 し ます 。 こ れ ら 2 つの 
機能 を 組み 合わ せ て 利用 する 、 ユー 
ザー ラン ド の ツー ル が LXC や Dock 
er と いっ た コン テナー 機能 と いう こ 


と で す 。 


_ 回 = 


リッ ニ 


Partl で 説明 し た よう に 、Linux 
コン テナー を 支え る カー ネル 機能 に 
は 「cgroup」 と 「namespace」 の 2 
つが あり ます 。Part2 で は 、 こ の う 
ち 数 年 の 利用 実績 を 持つ cgroup 機 
能 を 取り 上 げ 、 管 理 面 を 中 心 に 最近 
の 状況 を 紹介 し ます 。 

cgrOouD は 、 プ ロモ セス を グル ー プ 
化し て 管理 する た め に 設け られ た 機 
能 で す 。 機 能 別に 、 い くつ か の サブ 
シス テム に 分 か れ て いま す ( 表 1) 
例え ば 、「cpu」、「memory」、「blk 
jo」 (プロ ッ ク デ パイ ス 1/O) と いっ 
た サ プ シ ステ ム * が 存在 し ます 。 

と ころ で 、 Linux で は スレ ッ ド ID 
(tid) や 各種 実行 時 の 情報 が スレ ッ 
ド ご と に 管理 され て いま す 。 そ れ に 
な らい 、cgroup の 情報 も スレ ッ ド に 
付加 きれ る 形 で 管理 され て いま す 。 
そし て cgroup の 情報 は 、 各 スレ ッ ド 
か ら cgroup 機 能 へ の アク セス が 容 
易 に な る よう に 工夫 され て いま す 
具体 的 に は 、 前 述 し た サ プ シ ステ ム 
へ の アク モス に 必要 な 情報 が 配列 の 
形 で 含ま れ て いま す - 


スレ ッ ド や プロ セス と cgroup 
冒頭 で 、cgroup は 「 プ ロモ ス を 
グル ー プ 化し て 管理 する ] 機能 
記し まし た 。 し か し 、 制御 は スレ ッ 
ド 単 位 に な っ て いま す 。Linux の 制 
御 の 最小 単位 が スレ ッ ド な の で 、 そ 
うし た 実装 に な っ て いる の で す 。 実 
際 に 利用 する 場面 で 、 少 々 混乱 を 招 
く こ と が ある の で 、 も う 少 し 詳し く 
説明 し ます 。 た だ 、 その 前 に スレ ッ 


ド と プロ モス に つい て お さら いし て 
お きま し ょ う 。 

スレ ッ ド は Linux の スケ ジュ ー リ 
ング の 単位 で す 。 ま た 、 プロ セス は 
1 個 以上 の スレ ッ ド の グル ー プ で す 
大 き な プ ロモ ス で は 、 数 千 個 の スレ 
ッ ド を 持つ こと も ある か も し れ ま せ 
ん 。 そ し て 碁 本 的 に は 、 ユ ー ザ ー は 
「 プ ロモ セス 」 と し て プロ グラ ム 実 行 
を 認識 し て いま す 

cgrouD に つい て の 情報 が スレ ッ 
ド ご と に 付加 きれ て いる と 説明 し ま 
し た が 、cgroup 機 能 (コン トロ ー 
ル API) も スレ ッ ド 単位 で 利用 ( 設 
定 ) で きま す 。 例 えば 、CPU の 利用 
量 を 制御 する cpu サ プシ ステ ム や 、 
CPU と スレ ッ ド の 関係 を 制御 する 
cpuset サ プシ ステ ム に つい て は 、 ス 
レッ ド 単 位 で ある こと が 大 き な 意 味 
を 持つ こと を 直感 的 に 理解 いた だ け 
る と 思い ます 。 

一 方 で 、 memory サ プ シ ステ ム は 
プロ セス 単位 で 制御 する よう に 実装 
され て いま す 。 ま た 、 他 の サ プ シ ス 
テム (「blkio] や デバ イス の アク セ モ 
ス 制 御 を 行う 「devices] な ど ) で 


表 1 cgroup の サブ シス テム 


も 、 ス レッ ド 単 位 で 設定 され る こと 
は ほとん ど あ り ま せん 。 ス レッ ド 単 
位 で 設定 する 用 途 が な か っ た り 、 複 
雑 過 ぎ た り する か ら で す 。 本 題 の cg 
roup 機能 も 、 コ ン テ ナ ー で 利用 きれ 
る 場合 は プロ セス 単位 で 設定 され ま 
す 。 ス レッ ド 単 位 で 設定 され る ケー 
ス は あま りな いこ と を 考え る と 、cg 
roup 機 能 に お ける スレ ッ ド 単 
の 制御 と いう の は 少々 オー バー スペ 
ッ ク だ っ た の か も し れ ま せん 。 

も と も と 、cgrouD で は 「cgroup. 
tasks] と いう 制御 ファ イル に スレ ッ 
ド ID を 書き 込ん で 、 ス レッ ド の 所 属 
cgroup を 制御 する API を 提供 し て 
し て いま た 。 し か し 、 比較 的 新しい 
カー ネル で は 、 ス レッ ド ID で は な 
「cgroup.procs] と いう ブロ モス ID 
を 書き 込ん で 、 プ ロ セ ス 内 の 全 ス レ 
ッ ド の 所 属 cgroup を 制御 する API 
も 提供 する よう に な っ て いま す 。 

将来 は 「cgroupprocs」 に 一 本 化 
する よう な 話 も ある よう で す が 、cp 
uset な ど ス レッ ド 単 位 で の 制御 が 使 
われ て いる 面 も ある の で 、 ー 
本 化 は 次 し いか も し れ ま せん 。 


cpu や cpuset 以 外 の 枝 能 は 、 プ ロ セ ス 単 位 の 設定 で 十分 な 場合 が 多い 。 


名 第 上 


許可 や 負 


リソー ス を 管理 する cgroup 
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[サフ シス テム 】 全体 の シス テム の 一 部 で す が 、 そ れ 自体 が 1 つの 村 能 を 捕 成す る シス テ 
ム と し て 動作 する も の で す 。 

[デー モン プロ グラ ム 】 サー バー ソフ ト な ど 、 シ ステ ム に 常駐 し て 動作 し て いる いる ブ 
ログ ラム で す 。「 サ ービス 」 と も 呼び ます 。 


ystemd と cg 
cgroup の 利用 面 に お いて は 、 シ ス 
テム 初期 化 プ ログ ラム の 「systemd] 

- よ っ て 大 きか 変化 が も た らき され っ 
NG 2 人 0 つ d2cKK222 rserslice」 と いう sllce の 下 に 、 


つ あ り ま す 。Linux ディ スト リピ ビュ ssh で ログ イン し た ユー ザー 
5 (k ) が 置か れ て いる 
temd が 採用 きれ る 以 cue 


ー が 自分 で cgroup を 


ッ ド を cgroup に 割り 
よう な 使い 方 が 主 で し た 。 し 
emd が 採用 きれ た シス 


て は 、cgrouDp が systemd 
に よる 制御 の 下 に 入る 形 と ヽ SY 
stemd に よっ て cgroup が 必ず 利用 
され ます 


Syslemd で は cgroup に よる 制御 還 1 cgroup の 階層 を ツリ ー 家 示す る systemdcgls コ マン ド の 出力 例 


の 単位 デフ 
く 3 つ う 6( 従 
ice、「system」 「machine」「us っ て 、 例え ば 「 ロ グイ ン し た 
er」 に 分 け ま す 。system は 、 シ ステ ー が 実施 し た バッ クア 


ム が 起動 する : ンプ ログ ラム * 
な ど が 所 属す る slice で す 。 ま た 、ma 
chine は KVM ゲ スト や コン テナー が 
所 属す る slice、 


な い 値 に つい て は 、 自分 で スク リプ 
御 し ます 
temd の 開発 者 は 、 最 


て user は ログ 


ま 、「unit フ ァ 
これ ら 3 つ の slice の 下 に 、 サ ー ビ す 。 主 な 記述 内 容 は 、unit の 説明 、 
ス ご と に cgroup を 作成 し 、 さ ら に unit 起 動 時 の 他 unit と の 関係 (例え 
『 層 構造 的 に ば 、http サ ービス は ネッ トワ ー ク を 
こい ます 動か す )、 実 


の 引数 、 な ど で す 


まし た な が 、 今 後 ( 


て cgroup (unit や 


頼 し 


ce) を 作成 す 


こよ り 、 全 ロ グイ ンコ unit )slice の 下 に 置く の る 形 が 主 に な る か も し れ ま せん 。 実 
ー ザ ー に よっ て 利用 され る CPU の か 、CPU や メモ リー の cgroup 設 定 際 、KVM や LXC の 制御 に 使わ れ て 
利用 量 を 制限 で きま す 。 こ れ は 、sy 値 を どう す : E 来 の よう に 
stemd に よっ て 提供 きれ る ログ イン unit フ ァイル 


サー ビス が 、 ユー ザー の ログ イン セ PA 


変化 し まし た 


_ 回 ニニ 


ッ シ ョ ン を user slice の 下 に 置く よ cgrouD サ プシ ステ ム の パラ メー タ E 成 する 形 に 


maIm ら SpaB」 


Partl で 、 コ ン テ ナ ー を 支え る カ 
ー ネ ル の 機能 に は 「cgroup」 と 「na 
mespacel の 2 つが ある と 述べ まし 
た 。 そ し て 、ParI2 で cgroup 機能 に 
つい て 説明 し まし た 。Part3 は 、na 
mespace を 取り 上 げ ま す 


空間 が 違う と モノ の 名 前 が 異な る 
namesDpace と は 何で し ょ うか 
name は | 名 前 ]、space は 空間] の 
こと で す 。 一般に デー タ 群 を 管理 す 
る 際 は 、 ひ と まとまり の デー タ ご と 
に 名 前 を 付け ます 。Linux に お いて 
も 、 例 えば プロ モス で あれ ば PID* 
と いう 名 前 を 付け て 管理 し ます し 、 
ファ イル で あれ ば ディ レク トリ ー や 

ファ イル 名 を 付け て 管理 し ます 
namesDace は 、 そ の よう な 「 名 前 
と モノ の 関係 ] を 共有 で きる 空間 の 
こと で す 。 あ る namespace A と 別 
の namespace B で は 、( の ある 
オプ ジェ クト に 基本 的 に は 別 の 名 前 
が 付い て いま す 。 あ る い は namesp 
ace 内 に “名 前 が な く て で "、 ア クモ ス 
で き な い 状態 て いま す 。 nam 
espace を 利用 すれ ば 、 他 の names 
pace か ら 和 干渉 を 受け る こと が な い 、 
独立 し た 環境 を 作れ ます 。namesp 
ace は 管理 対象 の オプ ジェ クト の 種 


表 1 namespace と 管理 対象 


プロ セス の PID (お よび PID を 引数 に する シス テム コ 


類 に よっ て 分 か れ て お り 、 現在 の と 
ころ 表 1 に 示し た よう な 種類 が あり 
ます 


最初 は プロ セス が 1 つ だ け 存 在 

新しい namespace を 作る に は 「un 
share0」 と いう シス テム コー ル * を 呼 
び 出 し て 自 プ ロモ ス を 新しい names 
pace に 置く か 、 あ る い は 「clone0」 
と いう シス テム コー ル で 新 ス レッ ド 
を 作る 際 に その スレ ッ ド を 新しい na 
mespDace に 置き ます 。 既 に 存在 する 
namespace に プロ モス を 付加 する 
に は 、「setns0]」 と いう シス テム コ 
ー ル を 利用 し ます 。 手軽 に namesp 
ace を 試し て みた いな ら 、 親 プロ セ 
ス と コン テキ スト * を 共有 し な いよ 
うに する 「unshare] コマ ンド を 利 
用 する と よい で し ょ う 

namespace を 作っ た 直後 は nam 
esDace 内 に プロ モス は 1 つ (自分 ) 
だ け で す 。 子 プロ モス を 作っ た り 、 
setns0 で プロ モス を 追加 し た り で き 
ます 。 以下 で は 、 そ れ ぞ れ の name 
space の 特徴 と 役割 に つい て 見 て い 
きま す 


@ PID namespace 
PID namespace は 、PID と プロ モ 


UTS ホス ト 名 や ドメイン 名 

MOUNT ファ イル シス テム の マウ ント 関係 

_Network ネッ トワ ー ク デバ イス や ルー ティ ング 、IP ア ドレ ス な ど 。 還 
IPC 共有 メモ リー、 セ マフ ォ ー、 メ ッ セ ー ジ キュ ー な ど 

Up ユー ザーID、 グ ルー プ ID 


ス の 関係 を 管理 する namespace で 
す 。 新しい PID namespace を 作る 
と 、namespace を 作っ た プロ モス が 
新 namespace 内 で は PID 1 と な り ま 
す (PID 1 は 、 通 常 の Linux におい 
て は init プロ モス * に 付与 され る ) 
そし て この PID 1 の プロ セス が な く 
な る と 、namespace が 消滅 し ます 

新しい namespace を 作成 し た 直後 
は 、 自 プロ モス し か 存在 
元 の ( 他 の ) namespace の プロ セス 
は 見 えま せん (/proc で 見 えな か っ た 
り 、kill で シグ ナル * が 送れ な か っ た 
り し ます ) 3 いて は 、 
コン テナー 内 の プロ セス が 外 の プロ 
セス の 情報 を 見 て それ に 影響 を 与え 
な いよ うに する た め に 使わ れ ま す 


コン テナー 


@ UTS namespace 

普段 意識 する こと は な いで し ょ 
う が 、 サ ー パ ー の ホス ト 名 は 「set/ge 
thostname0」 と いう シス テム コー ル 
に よっ て 設定 され ます 
の シス テム コー ル の 設定 値 は 、UTS 
namespDace に 保存 きれ ます 

コン テナー に お いて は 、 コ ン テ 
と に ホス ト 名 を 設定 で きま す 
れ は UTS namespace の 機能 
に よっ て 実現 きれ で いま す 


そし て 、 こ 


ナ 


が 、 


@ MOUNT namespace 

ファ イル シス テム を 使え る よう に 
する (見 える よう に する ) に は 、 あ 
ディ レク トリ ー の 配下 に 新しい フ 
ァイル シス テム を 接続 する 、 マ ウン 


ト と いう 作業 が 必要 で す 。 マ ウン ト 


の 


図 1 2 つの コン テナー を Network namespace で ブリ ッ ジ 接続 し た 例 


の 情報 は MOUNT namespace に 保 
存 さ れ ま す 。 

コン テナー で は MOUNT names 
Dace を 活用 し て マウ ント を 適宜 実 
施し 、 コンテナー ご と の ファ イル シ 
ステ ムツ リー を 作っ て いま す 。 そ の 
際 、 ルー トディ レク トリ ー を 変更 す 
る 「chroot0] 機能 も 利用 きれ ます 。 
な お 、 コ ン テ ナ ー 内 で 実施 し た マウ 
ント が 、 他 の コン テナー に は 影響 を 
与え な いよ うに な っ て いま す 


e Network namespace 

Network namespace は 、 き ま ぎ 
まな ネッ トワ ー タ 機能 を 含む name 
sDace で す 。 作成 当初 は 、 ロ ー カ ル 
ルー プ バ ッ ク ま 以外 に は 何 $ も あり ま 
せん 。 そ こ に 、namespace の 外 か ら 
仮想 イー サ ネ ッ ト デ バイ ス な ど を 追 
加 し て 、 コ ン テ ナ ー 内 か ら ル ー テ ィ 
ング 機能 や ファ イア ウォ ー ル の 設定 
を 行い ます 。 

コン テナー に お いて は Network 
namespace を 用 いて 、 ホ スト と は 独 
立 し た IP アド レス の 付与 を 含む 各 


|Part3 独立 し た 環境 を 作れ る namespace 


仮想 NIC (Veth) な ど で 
作っ た 仮想 ネッ トワ ー ク 


種 ネ ットワーク 設定 が で きる よう に 
な っ て いま す ( 図 1)。 な お 、netw 
ork namespacec を コン テナー と は 独 
立 し て 使う 場合 は 、「ip] コマ ンド 
を 利用 し ます 。 


@ IPC namespace 

IPC (Inter-Process-Communi 
cation) は 、 俗 に 「SysV IPC」 と 
いわ れる 共有 メモ リー や セマフォ 
ー*、 メ ッ セ ー ジ キュ ー* を 指し ま 
す 。 こ れ ら は 、 プ ロモ ス 間 で 通信 を 
行え る よう 、OS が 用 意 し て いる 共 
有 オ プ ジ ェ クト で す 。 IPC namesp 
ace は 、 こ れ ら 共有 オプ ジェ クト へ 
の アク セス を 分 割 し ます 。 

例え ば 、 あ る プロ グラ ム が 「MYS 
HMEM」 と いう キー 値 (識別 情報) 
で 共有 メモ リー を 作成 し た と し ま 
す 。 他 の プロ グラ ム は 、 こ の MYSH 
MEM と いう キー 値 を 指定 し て 、 そ 
の 共有 メモ リー に 接続 し ます 。 こ の 
と き 、 同 じ ア プリ ケー ショ ン を も う 
1 つ 動 か す に は 、 共 有 メ モリ ー の キ 
ー 値 が 重複 し な いよ う 、 変 更 し な け 


れ ば な り ま せん 。 IPC namespace で 
分 けれ ば 、namespace ご と に KEY 
値 が 独立 に な る の で 、 そ うし た 変更 
が 不要 に な り ま す 。 つ まり 、 他 の コ 
ン テ ナ ー で 使わ れ て いる IPC リ ソー 
ス の 状況 を 気 に せ ず に 済み ます 。 


@ UID namespace 

ユー ザーID や グル ー プ ID を コン 
テナー ご と に 設定 可能 に する 機能 
で す 。 例 えば 、 コン テナー 内 か ら 見 
れ ば root ユ ー ザ ー の ID だ けど 、 コ 
ン テ ナ ー 外 で は 一 般 ユ ー ザ ー と いっ 
た 設定 が 可能 で す 。 コ ン テ ナ ー 内 外 
の ユー ザーID、 グ ルー プ ID は 各 mna 
mespace の プロ モス の 「/proc/PID/ 
uid_mapl「 同 /gid_map] と いう フ 
テ ァイル に 設定 し ます 。 


実際 に は 、 コ ン テ ナ ー の ツー ル が 
全部 や っ て くれ る の で 、 こ れ ら na 
mespace を 個別 に 使う こと は 少な い 
で し ょ う 。 し か し 、 それ ぞ れ を 押さ 
えて お く と 、 で きる こと 、 で き な い 
こと が 見 えて くる で し ょ う 。 


回 = 


ア ヲ リ リケーション | 


加 peKer 


第 6 章 で は ここ 
の 概要 や 、 コ ン テ ナ ー を 支え る カー 
ネル の 機能 で ある 「cgroup」 と 「na 
mespace] に つい て 説明 し て きま し 
た 。Part4 で は 、 コ ン テ ナ ー を 利用 
し た アプ リケーション 配備 基盤 の 
「Docker」 を 取り 上 げ 、 何 が 新しい 
(面白 い ) の か 、 ど ん な 変化 を も た 
ら す と 期待 され て いる の か 説明 し て 
いき ます 


で 、 コ ン テ ナ ー 


Docker の 機能 と 効果 
Docker は 2013 年 4 月 に 公開 され 
て 以来 、 大 き な 話 題 に な っ て いま 
す 。2014 年 6 月 に は 開発 フェ ー ズ 
か ら 実 用 フェ ー ズ に 入っ た こと を 梨 
徴 す る 10 が リリ ー ス され まし た 
Docker は 、 コ ン テ ナ ー を 利用 し 
て アプ リケーション を 配備 する 仕組 
み で す 。 Docker が 動作 す 
上 で 、 ア プリ ケー ショ ン を 合 む Doc 
ker イ メー ジ を 起動 する と 、 自 動 的 
に コン テナー を 生成 し 、 その 中 で ア 


る シス テム 


プリ ケー ショ ン を 実行 し ます 。 ア プ 
む Docker の イメ 
ー ジ の 中 に は 、 ア プリ ケー ショ ン に 
ほな 依存 ライ ブラリ や ラン タイ ム 

な ど が 同 こ ん され て いま す 

この イメ ー ジ の バー ジョ ン 管 理 、 

配布 ・ 実 行 する 機能 が Docker に 備 
わっ て いま す 。 例え ば Ruby on Ra 
ils* (RoR) の アプ リケーション を 
動作 させ る 場合 、 通 常 は RoR の 実行 
環境 に 加え て 、Web サー バー や デー 
タベース な ど を 準備 し な く て は な り 
ませ ん 。 し か し 、Docker で は それ 
ら を 作り 込ん だ イメ ー ジ を 用 意 すれ 
ば ぱ 、 その イメ を 起動 する だ け で 
RoR の アプ リケーション を 動作 きせ 
る 環境 が 構築 され ます 


リケーション を 含 


品質 管理 や 配備 時 間 に 影 響 及 ぼ す 
この よう な 仕組 み に 、 ど うい っ 


た 技 力 が ある の か を 考え て み ま し ょ 
う 。 ま ず 、 普通 に アプ リケーション 
起動 する に は 、 そ 


を イン スト ー ル 、 


ョ ン と 環境 を 丸ごと イ 
比 し 、 再 配布 可能 な 状態 で 管理 


自前 の サー バー 
(Docker が 動作 ) 


図 1 前 準備 を する こと な く 、Docker イ メー ジ が クラ ウド や 自前 サー バー で 動く 


の 前 提 に な る パッ ケー ジ を 確認 する 
必要 が あり ます 。 一 方 、Docker の 場 
合 に は オー ルイ ン ワ ン の パッ ケー 

に な っ て いる の で 、 そ うし た 手間 を 
省け ます 。 つ まり 、 イ メー ジ を ダウ 
ン ロ ー ド する だ け で 、 ク ラウ ド ま で 
も 自前 の サー バー で も 変わ りな く 、 


な ん ら 事 準備 を する こと な く ア フ 
リケーション が 起動 し ます ( 図 1) 
まだ た 、 イメ ー ジ を 丸ごと 、 つ 記 
アプ リケーション と 環境 を まとめ て 
パー ジョ ン 管 理 で きる の で 、 同 じ 機 
能 の サー バー が 複数 台 存 在 する 場 
サー バ パー ご と の 微妙 な パッ ケ 

が な く な り ま 


す 。 き さら に は 、 コ ン テ ナ ー の 中 に は 
ほな サー ビス を 入れ な く て も よ 
く な っ た り 、 コ ン テ ナ ー な の で 外部 
の プロ セス の 影響 を 受け な く な っ た 
り も し ます 

これ は 、 シ ステ ム を 構築 し て 運用 
する 際 に 大 き な 外 乱 要 因 と な っ て き 
た 、 ア プリ ケー ショ ン の 動作 環境 の 
品質 を コン トロ ー ル 可能 に 
を 意味 し ます 。 コ ン テ ナ ー に 割り 当 
て る リソー ス 量 や CPU アー キテ ク 
チャ ー、 カ ー ネ ル の バー ジョ ン な ど 
の 差異 は 残る に し て も 、 動作 環境 が 
ほぼ 均質 化 き れる の で 、 サー バー の 
品質 管理 に 対す る 考え 方 や コス ト が 
大 きく 変わ る 可能 性 が あり ます 。 

Docker に は コン テナー の 配備 時 
間 を 短縮 する 差分 管理 の 仕組 み が 
備わっ て いま す 。 そ れ に より 、 開 発 
環境 で の トラ イ & エ ラー に 要する 時 
間 を 短縮 で きま す 。 コ ン テ ナ ー に は 、 


な る こと 


仮想 マシ ン よ り も 格段 に 起動 
時 間 が 短い と いう 特徴 も ある 
の で 、 ビ ルド か ら 配 備 、 テ ス 


ト ま で の 時 間 を 大 きく 減ら す ポー タル 
こと が 可能 で す 。 
Docker Hub 
な ど 
シス テム の 新しい 枠組 み へ 


Docker は ここ まで 説明 し た 
よう に 、 実 行 環 境 を 含め た アプ 
リケーション 全体 の パー ジョ 
ン や 品質 管理 に よっ て イレ ギュ ラー 
を 抑え 、 迅 速 な 水平 展開 を 可能 に す 
る 仕組 み で す ( 図 2)9。 ア プリ ケー シ 
ョ ン の 配備 基盤 に 標準 フォ ー マ ッ ト 
と API を 用 意 する こと で 各種 サー ビ 
ス と つなが り 、 利 用 が 広がる と 期待 
で きる こと が 、Docker の 面白 味 で し 
ょ う 。 例え ば 、 パ バージョン 管 理 と 配備 
の 仕組 み を 備え た コン テナー と し て 、 
各種 SaaS*/PaaS* に 組み 込ま れる 
流れ が 本 格 化し つつ あり ます 。 複数 
の Docker コ ン テ ナ ー を 連動 きせ る オ 
ー ケ スト レー ショ ン * の 仕組 み の 登 
場 や 、Hadoop な ど ビ ッ グ デー タ 処 理 
の バッ クエ ンド と し て の 利用 も 考え 
られ ます 。 将来 は も し か し た ら 、 ク 
ラウ ド 向 け の (AppStore の よう な ) 
スト アー サー ビス の 基本 動作 環境 に 
も な る か も し れ ま せん 。 

2014 年 6 月 に 開催 き ほれ た Docker 
Con 2014 の イベ ント で は 、Docker 
10 に 加え て 「Docker Hub] と いう 
サー ビス も 発表 され まし た 。Dock 
er Hub は Docker イ メー ジ を 構築 、 
配備 する サー ビス で す 。 例 えば Doc 
ker Hub か ら イ メー ジ を ダウ ン ロ ー 


間 症 用 


上 アプ リケーション 配備 基盤 の Docker 


【Ruby on Rails】 プロ グラ ム 言 語 [Rubyj に よる Web ア プリ ケー ショ ン 開 発 を 簡単 に する ソフ トウ エア で す 。 
【 ク ラウ ド 】 イン ター ネッ ト 上 に ある シス テム の ハー ドウ エア や ソフ トウ エア を 手元 で 利用 する た め の サ ービス で す 。 

【SaaS】 Software as a Service の 略 で 、 ク ラウ ド で 使え る アプ リケーション を 提供 する サー ビス で す 。 

【PaaS】 Platform as a Service の 略 で 、 ク ラウ ド で 使え る 独自 Web ア プリ ケー ショ ン が 動作 する 環境 を 提供 する サー ビス で す 。 
【 ク リー ン イ ンス トー ル 】 既存 の 環境 に 影響 を 受け な いよ うに 新規 で イン スト ー ル する こと で す 。 

| 【 バ ズ ワ ー ド 】 流行 し て いる が 、 定 義 が 曖昧 で 人 に よっ て 受け 取り 方 が 違う 言葉 で す 。 


図 2 ベー ス と な る イメ ー ジ を カス タマ イズ し て 水平 展開 する 運用 の 例 


ド し 、 改変 を 加え て 再 ア ッ プ ロー ド 
する と いっ た こと が で きま す 。 
「Automated Build] と いう サー 
ビス も 備え て お り 、 例 えば GitHub 
な ど で 開 発 中 の アプ リケーション を 
連携 さき せる と 、 ア プリ ケー ショ ン を 
更新 する た びに Docker Hub の Do 
cker イ メー ジ が 自動 更新 され ます 。 
それ を 即 、 ク ラウ ド や 自前 の サー バ 
ー に 配備 し て 利用 可能 で す 。Docker 
の 開発 元 で ある 米 Docker 社 は 、 Do 
cker を 基盤 と し た 新た な シス テム の 
枠組 み を 作ろ うと し て いま す 。 


Immutable Infrastructure 

「Immutable Infrastructure」 と 
は 、 直 訳す る と 「 不 変わ イン フラ 」 
で あり 、 シ ステ ム を いっ た ん 動か し 
た ら 以 降 は 手 を 加え な いと いう 考え 
方 で す 。 構成 や 設定 を 変更 する 場合 
は 、 再 構築 し た イメ ー ジ を クリ ー ン 
イン スト ー ル \* し ます 。 若干 、 パ ズ 
ワー ド * っ ぽ き も あり ます が 、 今 注 
目 さ れ て いる 考え 方 で す 。 

作り 直し て 配備 し 直す 前 提 の ク 
リー ン な 環境 と 運用 を どう 組み 合 


菩 
ァ ジ ご" 


わせ て いく か が 主 な 問題 で 、 今 ま 
で は VM (仮想 マシ ン ) を 利用 し 
て 実践 する ケー ス が 多い と 思わ れ ま 
す 。Docker は この 考え 方 に ズ パ リ 
当て は まり ます 。 今 で は Docker の 
利用 が 大 き な 可 能 性 と し て 見 えて き 
て いま す 。 

Immutable Infrastructure に つ 
いて は 、 再 配備 の 際 に 消え て よい デ 
ー タ と 消え て は いけ な い デ ー タ (DB 
の 中 身 な ど ) の 分 け 方 や 、 ロ グ の 管 
理 方 法 、 イ メー ジ の 中 に 含め る デー 
タ と デプロイ 後 の 変数 と し て 外 か ら 
与え る パラ メー ター の 分 離 法 な ど 、 
うま く や る に は いろ いろ な ポイ ント 
や テク ニッ ク が ある よう で す 。 

Docker の 利用 が 広がる 中 で 、 新 
し い 考 え 方 や 技術 が 出 て き て 、 アプ 
リケーション と サー パー の 関係 や 運 
用 の あり 方 が 大 きく 変わ っ て いく よ 
う で す 。 そ う 思 わせ る だ け の 魅力 
が Docker に は あり ます 。 新しい 使 
い 方 に 挑戦 し た り 、 まだ 未 部 な うち 
に 開発 に 参加 し た り し て 、 そう し た 
大 き な 変化 を 直接 肌 で 感じ る の も 面 
白い の で は な いで し ょ うか 。 


_ 回 


カー ネル の 仕組 み 


カー ネル に つい て し っ か り 学 べ る よう に 、 6 つの パー ト に 分 け て 仕組 み を 紹介 し ます 。 
Linux 上 で 動作 を 確認 し な が ら 、 こ こ で 完全 に カー ネル を 理解 し まし ょ う 。 


[ 週 略 ] カー ネル の 全体 像 im 

[ 週 語 】 プロ セス と メモ リー 管理 ig 

[ 週 詳 】 ファ イル シス テム と ブロ ッ ク レ イヤ ー 14 
[ 週 連 】 TCP/IP ネッ トワ ー ク ra 

[ 週 語 H】 デバ イス ize 

[ 村 軒 ヨ リソー ス 制 御 sz 
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OS と し て の Linux を 制御 ・ 管 理 し て いる の が 「 カ ー ネ ル 」 で す 。 カー ネル は 、 
カー ネル を 構成 する 各部 の 仕組 み を 詳し く 解 説 す る 前 は その 全体 像 4 見 て み ま し ょ う 。 


「Linuix カー ネル | は 、 世 界 で 最も 
成功 し た OSS (オー プン ソー スソ フ 
トウ エア ) プロ ダク ト の 
その 世界 (ソー スコ ー ド や 機能 ) は 
と て も 大 きく 、 奥 深く 、 し か も 広 が 
り 続け て いま す 

本 章 は 「 カー ネル の こと を 理解 し 
た い 、 で も どこ か ら 手 を 付け れ ば 
い の か 見 当 も 付か な い 」 方 が その 世 
界 に 入れ る よう 、 カ ー ネ ル の 仕組 み 
を 分 か りや すく 解説 し ます 。 手 を 動 
か す 部 分 や 最近 の 開発 トピ ッ ク な ど 
を を 合 め ます の で 、 楽し みな が ら 最 新 
カー ネル を 学び まし ょ う 


- つ で す 


Linux カ ー ネ ル と は 

Linux は 、UNIX に 似 た OS (オペ 
レー ティ ング シス テム ) で す 。Ubun 
tu や Fedora、 Debian、 oDenSUSE、 
Red Hat Enterprise Linux や SUSE 
Linux Enterpri ど が 、「Linux 
ディ スト リ ビ ュ ーション 」| と し て 提 
供 き され て いま す . 

これ ら の Linux デ ィ ス トリ ビュ ー 
ショ ン の 核 と し て 動作 する プロ グラ 
ム が カー ネル で す 。 カ ー ネ ル に 「 ユ 
ー ザ ー ラ ンド 」 と 呼ば れる 、 ライ ブ 
ラリ ポア ブリ ケニー ショ ジテ ユーザ ー 
イン タフ ェ ー ヌ (UI) ざら に プー 
ト (起動 ) プロ グラ ム や イン スト ー 


よ 


ラー な どの さま ざま な ソフ ト を 付け 
加え て 、 イ ンス トー ル す れ ば ユー ザ 
ー が すぐ に 使え る 状態 に な る 配布 バ 
ッ ケ ー ジ が Linux ディ スト リ ビ ュ ー 
ショ ン で す 

カー ネル は “狭義 の Linux"、 デ ィ 
スト リ ビ ュ ーション は “広義 の Lin 
ux" と いえ ます 


カー ネル の 特徴 

Linux は 、 き さまざま な 規格 や アー 
キテ クチ ャ ー に 幅広 く 対 応 し て いま 
す 。 イ ンタ フェ ー ス と し て は 、「POS 
IX*| に 準拠 し た OS 実装 の 共通 API 

アプ リケーション プロ グラ ミン グ 
イン タフ ェ ー ス ) を 備え て いま す 
これ に より 、 世 の 中 に ある POSIX 
対応 の 多く の ライ プラ リ や アプリケ 
ーション が 動作 し 、 各 種 用 途 に 利用 
で きま す . 

CPU アー キテ クチ ャ ー は 、x86 や 
x86_.64 な どの PC 向け か ら 、 最 近 
スマ ー ト フォ ン で よく 使わ れ て いる 
ARM や SH な どの 組み 込み 機器 向 
け 、POWER や SPARC な どの 大 規 
模 向 シス テム 向け まで 、 幅 広く 対応 


し て いま す . 
Windows や OS さと 違い 、Linux 
カー ネル は ツー ル や アプ リ ケ ー シ ョ 


ン と は 別 の 独立 し た 組織 で 開発 され 


ネル の 全体 像 


人 ま の 


テー eyword 電 議 


オー フン ソー ス 、 デ ィ ス トリ 
ビュ ーション 、CPU ア ー キ テ 
クチ ャ ー、 バ ザー ル 方式 、 コ ミ 
ーー シン と ンー 
ログ ラム イン タフ ェ ー 
ス 、 フ プロセ ス / メ モリ ー 管 理 、 
ネッ トワ ー ク 、 リ ソー ス 管 理 、 
カー ネル ソー ス 、 ビ ルド 


さま ざま な 機能 を 備え て いま す 。 


で いま す 。 独 立 し て いる こと で 移植 
を し や すく し ます 。 開発 組織 は 、 オ 
CN ー ド を 
公開 し 、 誰 で も 参加 で 

ー ル 方 式 ) の コミ ュ 


す 。 個人 の ほか 、 多 く 
に 参加 し て いま す が 、 公 
れ て いま す 。 個人 や 企業 が 相互 補完 
で きる 、 た だ 乗り で 終わ っ て し まう 
こと が な い ? コミ ュ ニ ティ ー の 
パラ ンス も 雑 持 さ れ て いま す 

新しい 機能 が ニテ ィ ー に 提 
案 さ れる と 、 まずは それ を 取り 入れ 
る べき か どう か が 検討 きれ ます 。 そ 
の 際 、 その 機能 が 多く の 人 に と っ て 
有用 で ある の か 、 ま た 単 一 の 機能 
を 実現 する た め の も の で は な く 汎 用 
的 に 活用 で きる の か な ど が 討論 され 
で 、 必 要 最 小 限 の も の の み 採 用 され 
ます 

し か し 新 機能 の 取り 組み が 消極 
的 か と いう と 、 そ ん な こと は あり ま 
せん 。 前 向き に 検討 きれ 、 カ ー ネ ル 
の 根本 を 書き 換え る こと も し ば し ば 
あり ます 。 そ の 背景 に は 、 カー ネル 


【POSIX】 Portable Operating System 
Interface の 政 。UNIX 系 OS 向け の イン タフ ェ 
ー ス 規格 。IEEE( 米 国電 気 電子 学会 )、ISO 
(国際 標準 化 機構 ) や IEC (国際 電気 標準 
会 議 ) で 標準 化 さ れ て いま す 。 
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Linx カ ー ネ ル 


回 プロ セス / メ モリ ー 管 理 


Tproc」「sysfs] [cgroupfs] 「debugfs] な ど 、 さ ま 
ざま な 種類 が ある 。 デ ィ レ クト リー 構造 持ち 、 フ ァ 
イル と し て アク セス で きる 特徴 を 持つ 


主 に ネッ トワ ー ク 層 が 利用 する イン タフ ェ ー ス 。 パ ケ 
ッ ト フ ィ ル タリ ング 「iptables] の ルー ル 情 報 や 、 パ 
ケッ ト を 安全 に 送受 信 す る た め の プ ロト コル 「IPSec」 
の 筆 情 報 な ど 、 比 較 的 大 量 デ ー タ の や り 取り を 前 提 と 
し て 設計 され て いる 

シス テム コー ル の 一 種 。 拡張 が 容易 で 、 既 存 シ ステ ム 
NEAR 


poc 
sysfs 
cgroupfs 

| ハー ドウ エア | 

図 1 Linux カ ー ネ ル が 備え る 主 な 可能 2 

Part2 以 降 に 、 こ れ ら の 6 つの 要 能 を 詳し く 解 説 し て いく 。 

全体 を 1 人 で 統括 する の で は な く 、 証 ブ ログ ラム イン タフ ェ ー ス 


サ プ シ ステ ム ご と に 「 メ ン テ ナ ー]」 
と 呼ば れる 管理 者 を 置い て 
が あり ます 。 メ ン テ ナ ー に は 新 機能 
を 取り 込む 一 定 の 権限 が 与え られ て 
いる の で 、 い わ ば メン テナー の 一 存 
で 大 胆 な 変更 が 可能 で す 。 ま た サブ 
シス テム と いう 相互 に 独立 し た 小さ 
な 機能 単位 で 、 新 機能 の 評価 や 検証 
が で きま す 


C い る こと 


ゆ カー ネル の 還 
全体 像 
それ で は 、 前 置き は この くら い に 


し て 、Linux カー ネル の 全体 像 を 見 
て み ま し ょ う 。 本章 で は カー ネル を 
機能 別に 、 次 の 6 つ に 分 け て 解説 し 
ます ( 図 1)。Part2 か ら 詳 説 し ます 
が 、 簡 単に 概要 を 紹介 し まし ょ う 


四 プロ グラ ムイ ンタ フェ ー ス 

四 プロ セス / メ モリ ー 管 理 

放 ファ イル シス テム / ブロ ッ ク 層 
ネッ トワ ー ク 

田 デバ イス ドラ イ バ 

回 リソー ス > 管理 


厳密 に は カー ネル 内 の 機能 で は 
な く 、 ユ ー ザ ー プ ログ ラム * と カー 
ネル の 各 サ プシ ステ ム を 仲立 ち す る 
API 群 で す 。 こ の イン タフ ェ ー ス に 
は さま ざま な 仕組 み が あ り ま す が 、 
ほぼ す べ て が 最終 的 に 「 シ ステ ムコ 
ー ル 」 を 利用 し 、 ユ ー ザ ー プ ログ ラ 
ム と カー ネル 間 で の や り 取 り を 実現 
し ます 

シス テム コー ル は 、「read] (読み 
出し ) や 「write」 (書き 込み ) な ど 
の 基本 的 な 関数 を 用 いて 実装 きれ 
て いま す 。 と て も シン プル な 関数 な 
の で 、 こ れ ら を 利用 し て プロ グラ ム 
を 組む の は 大 変 で す 


*、 も う 少 し 扱い や すい イン 
ー ス を 提供 し て いる の が 「 刀 
を 代表 と する 各種 ライ プラ 


シス テム コー ル 以 外 に も 表 1 に 示 
す イ ンタ フェ ー ス が あり ます 。 フ ァ 
イル ベー ス の イン タフ ェ ー ス は 複数 
あり 、 使い 分 け な ど が 理解 し づ 
部 分 が あり ます 。 表 2 に 少し 整理 し 


づら い 


2 tda4 7 TS42 て 5 
富 

主 に ハー ドウ エア に 関連 する 情報 な ど に アク セス す 
る イン タフ ェ ー ス 

リソー ス 管 理 の 仕組 み 「cgroups」 に 関わ る 情報 に 
アク セス する イン タフ ェ ー ス 

2 グ や 解析 の 用 途 で 利用 され る イン タフ ェ 


て お きま し た 


名 プロ セス / メ モリ ー 管 理 

OS の 重要 な 仕事 と し て 、 マ ル チ 

スク * の 実現 が あり ます 。 マ ル チ 
タス ク で は 、CPU や メモ リー な どの 
計算 機 資源 を 分 割 し し ユーザー プロ 
グラ ム を 実行 する 単位 で ある 「 プ ブロ 
モス 」 ご と に 独立 し た 仮想 的 な 作業 
空間 を 与 す 

この プロ セス 管理 の 仕組 み と し て 
重要 な の が 、CPU 資 源 を 仮想 化す る 
「 タ スク (また は プロ セス ) スケ ジ 
ラー」 で す 。 近年 、CPU の コ 
了 数 は 増え る 一 方 で す 。 そ れ 以 上 に 
同時 実行 し た い ユ ー ザ ー プ ログ ラム 
の 数 は 増え 続け て いま す 。 ス ケ ジ ュ 
ー ラ ー は 、 限 られ た 資源 で ある CPU 
く 短 い 時 間 単 位 で 分 割 し 、 そ 
了 し た い プ ロ セ ス に 順次 割り 
され て 


ユ 


いる よう に 見 せま す 。 
現在 の カー ネル で は 
いう タス クス ケ ジ ュ ー ラ 


「CFS」 と 
ー が 導入 さき 
れ て いま す 。 以前 に 採用 され て い 
た 「0 1) スケジュー ラー」 は 、 近 


の aa 


年 の 多 コ ア 、 多 プロ モス な どの アー 
キテ クチ ャ ー 0 
に 、 さま ざま な 改良 が 加え られ て き 
まし た 。 た だ し 、 多 く の 改良 を 取り 
込ん だ こと で メン テ ナ ン ス が 困難 に 
な り 、CFS が 開発 され まし た 。CFS 
は 、 現代 の アー キテ クチ ャ ー に 対応 
で きる よう に 一 か ら 設計 され た も の 
で す 

4 
モリ ー も 割り 当て ます 。 CPU と 同様 
5 
限ら れ た メモ リー 資源 を 多く の プロ 
モス が 利用 で きる よう 、 プ ロモ セス ご 
と に 「 仮 想 メ モリ ー*] 空間 を 構築 
し ます 

この 仮想 メモ リー の 構築 お よび 、 
仮想 メモ リー と 物理 メモ リー と の マ 
ッ ピ ング を 管理 する の が 、 メ モリ ー 
管理 機能 で す 。 こ の ほか 、 物 理 メ 
モリ ー 不 足 を 防ぐ 退 遊 領域 「 ス ワッ 
プ *」 の 作成 や 制御 な ども メモ リー 
管理 の 機能 で す 


還 フ ァイル シス テム / ブ ロッ ク 層 

ファ イル シス テム と プ ブロック 層 
は 、 ス トレ ー ジ を 仮想 化す る 仕組 み 
で す 。 

ファ イル シス テム は 、「 フ ァイル ] 
と 呼ば れる デー タ を 、 仮想 化し た オ 
プ ジ ェ クト (固まり ) と し て 管理 し 
ます 。 フ ァイル に は 実際 の デー タ と 
共に 、 作成 や 更新 日 時 な どの タイ ム 
スタ ンプ 、 所 有 者 や アク セス 権 な ど 
の 管理 情報 (スタ デー タ ) も 一 緒 に 
保存 きれ ます 。 タ イム スタ ンプ や ヌメ 
タデ ー タ が 付随 する こと で 、 デ ー タ 


の 扱い が 楽に な り ま す 。 

プロ ッ ク 層 は 、「 ブ ロッ ク 」 と 呼ば 
れる 、 ス トレ ー ジ を 分 割 し た 単位 で 
ファ イル を 管理 し ます 。 ハ ー ド ディ 
スク と フラ ッシュ デバ イス の よう な 
スト レー ジ の 人 違い を あま り 意 識 し な 
クセ ス で きる よう に し ます 

プロ ッ ク 層 は 「I/O ス ケ ジ ュ ー ラ 
ー」 を 持ち 、 実 際 の スト レー ジ の 仕 
様 を 意識 し た スケ ジュ ー リ ング が 可 
能 で す 。 この スケ ジュ ー ラ ー に より 、 
どの よう な スト レー ジ に 対し て も 
率 的 な アク セス を 実現 し ます 


いで ア 


ネッ トワ ー ク 
ネッ トワ ー ク は 、 他 の シス テム と 
の ネッ トワ ー ク 通信 を 実現 する サ 
プシ ステ ム で す 。 最 も よく 使わ れる 
TCP や UDP、IP な ど を は じ め と し 
さま ざま な ブロ トコ ル を サポ ー 
し て いま す 。 ル ー テ ィング や バケ 
ッ 0 フィ ル タ リ ング [iptables」 な 
どの 仕組 み を 含ん で お り 、 と て も 
き な コ ン ポ ー ネ ン ト (部 品 ) で す 


田 デ バイ ス ド ラ イ バ 

デパ イス ドラ イ バ は 、 ハー ドウ エ 
アデ バイ ス を 仮想 化す る サブ プシ ステ 
ム で す 。 ハ ー ド ウエ アデ バイ ス を 制 
御 す る に は 、 ハー ド に 与え る 要求 は 
も ちろ ん で す が 、 ハー ド か ら 出 力 さ 
れる 「 割 り 込 み ] も 取り 扱う 必要 が 
あり ます 。 

ハー ドウ エア デパ イス は 、PCI や 
SCSI な どの よう に 規格 化 さ れ た イ 
ンタ フェ ー ス を 持つ も の か ら 、 独 自 
の アク モス 手順 を 必要 と する も の ま 


ar」 カー ネル の 全体 像 


で 、 き ま ぎ ざま で す 。 多く の 周辺 機器 
を Linux で 使う に は 、 デ バイ ス ド ラ 
イ バ で いか な る 機器 の イン タフ ェ ー 
ス に も 対応 し な く て は な り ま せん 。 


回 リソー ス 管 理 
リソー ス 管 理 は 、「LXC」 (Linux 
Containers) と も 呼ば れる 、0S そ 
の も の を 仮想 化す る た め の 仕組 み の 
中 核 で す 。 大 きく 「cgroup (また は 
cgroups)|」 と 「namespace」 の 2 つ 
に 分 か れ て いま す 。cgroup は 、CPU 
や メモ リー、 プ ロッ ク デ バイス な ど 
の コン ピュ ー タ 資源 を 分 割 し 、 プ ロ 
セス また は その グル ー 0 分 
割 し た 資源 を 割り 当て ます 。name 
spacc は 、 そ れ ぞ れ の グル ー プ 内 で 
独立 し た ファ イル シス テム 、 ネ ッ ト 
ー ク デバ イス 、 ユ ー ザ ーID や グ 
ルー プ ID な ど を 持た せま す 
こと で 、1 つ の OS 内 で 複 


こう する こと で 、 
数 の シス テム が 動作 し ます 。 分 割 さ 


【 ユ ー ザ ー プ ログ ラム 】 ユー ザー が 利用 す 
る アプ リケーション 。 コ マン ド や デス クト ッ プア 
プリ ケー ショ ン 、 サ ー バ ー ア プリ ケー ショ ン な ど 
で す 。 

【 マ ル チ タス ク 】 1 人 台 の コン ピュ ー タ で 復 数 
の 処理 を 同時 に 実行 する こと 。 マ ル チ タ スク 
で な いと 、 あ る 処理 の 実行 が 終了 する まで 、 別 
の 処理 が 待た され る こと に な り ます 。 

【 仮 想 メ モリ ー】 プロ セス ご と に 割り 当て る メ 
モリ ー 領 域 で す 。32 ピ ッ ト CPU で は 、1 つ の 
プロ セス に 4G バ イト の 空間 が 与え られ ます 。 
カー ネル が 使用 する 1G バ イト を 除く 3G バ イト 
を 、 ユー ザー プロ グラ ム で 自由 に 使え ます 。 ち 
な み に カー ネル が 利用 する 仮想 メモ リー を 「 カ 
ー ネ ル 空間 ] 、 ユ ー ザ ー プ ログ ラム が 利用 する 
仮想 メモ リー を 「 ユ ー ザ ー 空 間 ] と 呼び ます 。 
【 ス ワッ プ 】 メモ リー と し て 利用 で きる スト レー 
ジ 上 の 特別 な パー ティ ショ ン で す 。 ス ワッ プ は 、 
シス テム を 起動 する 前 に あら か じ め 作 成 し て 
お きま す 。 


(前 略 ) 


(中 略 ) 
read(3, "Hel1o Morldn", 65536) 
write(1, "Hel1o MorldW", 12) 

(以下 、 省 略 ) 


open("hello.txt"。 0_RDONLY= 3 ョ ーー (1) 


ー 12 ョ ーー (②) 
-12 


図 2 シス テム コー ル 呼 び 出し と 結果 


ファ イル を 開い て 中 身 を 読み 出し 、 標 準 出力 に 書き 込ん で いる 。 


プロ セス ID/ ペーー プロ セス 情報 
sys/ ペーー カー ネル バラ メー ター 
cpuinfo 
diskstats 
1nterrupts 
kmsg 
1oadavq 
mem1nfo 
uptime 
Vmstat 
(以下 、 省 略 ) 

図 4 /proc デ ィ レ クト リー 内 の 構造 

プロ セス 情報 や シス テム 情報 の 取得 、 カ ー ネ ル パ ラ 

メー ター の 取得 ・ 設 定 が 可能 。 


| シス テム 情報 


れ た 資源 は 、cgroup に よっ て グル 
ー プ 内 に アク セス が 制限 され て いま 
す 。 よ っ て 、 セキ ュ リ ティ も 確保 で 
きま す 


隊 プロ グラ ム 
イン タフ ェ ー ス を 試す 

ここ か ら は Linux を 実際 に 操作 
し 、 先ほど 説明 し た 内 容 を 確認 し ま 
し ょ う 。 ま ず は 、 シス テム コー ル や 
ファ イル ベー スイ ンタ フェ ー ス を 触 
っ て み ま す 


シス テム コー ル の 動き を 見 る 

プロ グラ ム が 利用 し て いる シス テ 
ムコ ー ル を 調べ る に は 、「strace」 コ 
マン ド (「strace」 バ パッ ケー ジ を 導入 ) 
を 使い ます 。 こ こ で は その 一 例 と し 
て で て 、 フ ァイル の 中 身 を 出力 で きる 
「catl コマ ンド で 試し て み ま し ょ う 

準備 と し て 、「echo] コマ ンド で 
「Hello World]」 と 書か れ た 「hello. 
txt] ファ イル を 作り ます 。 端末 を 
立ち 上 げ て 、 次 の コマ ンド を 実行 し 
ます 。 


$ mount 
7dev/sda2 on / type ext4 (rw) 
Proc on /proc type proc (rw) 
sysfs on /sys type Sysfs (rw) 
(以下 、 省 略 ) 


図 3 proc の 位置 
ファ イル ペー ス の イン タフ ェ ー ス な の で 、 ディ レク 
トリ ー に マウ ント し て アク セス する 。 


proc 内 の ファ イル を 読 


proc_do_uts_string() 


に さい 
バラ メー ター と 編 計 情報 


/proc/sys/kernel/hostname 読み 出し 、 香 き 込み 、 1 
更新 の 場合 に 呼び 出す |: 
IE 


jnit_uts_ns.name nodename 


5 
ユー ザー 空間 か ら は 、read () と write () 関 衝 で アク セス する 。 


$ echo “Hello world" > hello.t 


xt ロ 

続け て 、 先 頭 に strace コ マン ド を 
指定 し 、「hello.lx(] ファ イル の 中 身 
を cat コマ ンド で 表示 し ます 


$ strace -o trace.log cat he1lo 
・txt 回 
He11o Mor1d 


シス テ 


記録 さ 


「trace.log] ファ イル に 、 
ムコ ー ル の 呼び 出し と 結 
れ ま す 

「less」 コマ ンド で 中 身 を 見 て み ま 
し ょ う 。 最初 の 部 分 は 
「/bin/cat」 の 起動 と 共有 ライ プラ 
リ の リン ク 、 ラ イブ ラリ の 初期 化 で 
2 の 部 分 まで 読み 飛ば し て く 

さい 。(1) で 「hello.txtl ファ イ 
ル を open 関数 で 開い て いま す 。 (2) 
で read 関 数 で 読ん で 「Hello World」 
の 文字 列 を 得 て 、 そ れ を write 関数 
で 標準 出力 に 書い て いま す 


* 1ess trace.1og ロ 


ファ イル ベー スイ ンタ フェ ー ス を 使う 

Linux の シス テム 管理 や 情報 収集 
用 コマ ンド と し て よく 使わ れる 「ps」 
「uptime」 [vmstal「free」 「sysc 
t] は 、 フ ァイル ベー スイ ンタ フェ ー 
ス の proc を 使っ て いま す 。 Ubuntu 
や Fedora、CentOS な どの 主 な ディ 
スト リ ビ ュ ーション で は 、proc を フ 
ァイル と し て 読み 取れ る よう に 、「/ 
Droc」 ディ レク トリ ー に マウ ント し 
闘 す ) 

マウ ント され た /proc に は 、 各 プ 
ロモ ス に 対応 する プロ モス ID(PID) 
ご と の サ プ デ ィ レ クト リー、 シ ステ 
ム 全 体 の 統計 情報 を 提供 する ファ 


イル 、 カ ー ネ ル パラ メー ター の 取得 
や 設定 な ど を 行う た め の フ ァイル を 


格納 する サ プ デ ィ レ クト リー が あり 
ます ( 図 4)。/proc か ら は 、 フ ァ イ 
ル の 読み 書き と 同じ 操作 で . カー ネ 
ル バ パラ メー ター や 統計 情報 を 取得 . 
更新 で きま す ( 図 5) 

で は 、 シス テム の メモ リー 使用 状 
況 を 見 て み ま し ょ う の よう に 
コマ ンド を 実行 し ます 。。 そ れ ぞ れ の 


$ cat /proc/memfnfo 器 
MemTota1 : 1008824 
MemFree: 549400 
Buffers: 20756 
Cached: 350800 
(以下 、 省 略 ) 


図 6 メモ リー 使用 状況 
「/proc/meminfo] フ ァイル を 参照 する 。 


値 は 、 メ モリ ー 量 や シス テム の 状況 
に よっ て 異な り ま す 。 ま た 、 カ ー ネ 
ル の バー ジョ ン と CPU の アー キテ 
クチ ャ ー に よっ て 、 表 示さ れる 項目 
も 少し 進 う こと が あり ます 

出力 結果 の 意味 は 、Part2 の プロ 
セス / メ モリ ー 管 理 を 解説 する と き 
に 触れ ます 。 例 えば 、 空き メモ リー 
を 意味 する 「MemFree」 が 少な く 
で も メモ リー 不足 と は 判断 で き な い 
な ど 、 少 し 複雑 で す 

/proc/PID デ ィ レ クト リー 配下 に 
は 、 プ ロ セ ス に 関す る きま ざま な 情 
報 が あり ます 。 図 7 の コマ ンド を 実 
行 し 、 シ ェ ル の 情報 を 確認 し て み ま 
し ょ う 。「$5」 は 特殊 な 変数 で 、 自 分 
自身 の プロ セス ID に 置換 され ます 
最初 の 「comml が 返す 「bash] は 
シェ ル の コマ ンド 名 で す 。「exe」 と 
「cwd」 は それ ぞ れ 、 実 行 し て いる プ 
ログ ラム の フル パス ま * 名 と カレ ント 
ディ レク トリ ー* の リン ク で す 。「en 
viron] は 、「NULL」 文字 で 区 切ら 
れ た 環境 変数 の 一 覧 で す 。 こ れ ら の 
表示 内 容 は 、 ロ グイ ン 設 定 や GUI 環 
境 の 有無 に より 異な り ま す 

カー ネル パラ メー ター も 見 て み ま 
し ょ う 。「dirty_ratio] に は 、 デ ィ ス 
ク に 書き 込ま れ て お ら ず 、 メ モリ ー 
上 に の み 存 在 す る デー タ の 割合 (%) 
が 格納 され て いま す 。 


5 cat /proc/sys/vm/dirty_ratio 
20 


シス テム 管理 者 (root) 権限 が あ 


$ cat /proc/3$/comm ロ 
bash 

$ readlink /proc/3$/exe 口 
/bfn/bash 

* readlink /proc/$$/cwd 申 
/home/1user 

$ 1ess /proc/$$/environ 器 


紅 Part 1 カー ネル の 全体 像 


TERM=] 1nux 村 IOME=/home/1user 還 SHELL-/bin/bash 還 USER=]user 罰 PATH こ . . . 


図 7 シェ ル の 情報 確認 
/proc/PID 以 下 の 「comm」「xel「cwd」「anviron] を 参照 する 。 


$ cat /proc/sys/kernel hostname ロロ 
1ocalhost ー 変更 前 の ホス ト 名 


$ sudo echo myhost > /proc/sys/kerne1/hostname ロロ 


5 hostname 
rmyhost ペー 変更 後 の ホ スト 名 


図 8 ホス ト 名 の 変更 
「/proc/sys/kernel/hostnemel フ ァイル を 書き 換え る 。 


5 cd /sys/devices/system/clocksource ロ 


$ grep ^ clocksource*/* 器 


clocksource0/ava11able_clocksource: 


図 9 使用 タイ マー の 確認 


tsc hpet acpi_pm 
clocksource0/current_clocksource:tsc 


[tsc」「hpet」「acpi_pm」 の 3 種類 の タイ マー が 使用 で き 、cpu0 は 、 そ の うち の [tsc」 を 使用 し て いる 。 


れ ば 、proc 内 の ファ イル に 値 を 書き 
設定 を 変更 で きま す 
例え ば 、 図 8 の よう に 実行 する と 、 
ホス ト 名 され ます *1 

主 に デパ イス ド ライ バ の 情報 を 扱 
う sysfs も 使っ て み ま し ょ う 。Ubu 
ntu や Fedora、CentOS な どの 主 な 
ディ スト リ ビ ュ ーション で は 、sys 
fS を 「/sys] ディ レク トリ ー に マウ 
ント し ます 

Linux は 、 プ ロモ ス の スケ ジュ ー 
ル 、 時 限 処理 の 実行 な ど に タイ マー 
を 必要 と し ます 。 タ イマ ー と し て 使 
用 で きる ハー ドウ エア は 複数 あり ま 
す 。 そ の うち どれ を 使っ て いる か を 
見 て み ま し ょ う 。 図 9 の よう に 、 使 
用 可能 な タイ マー (available_cloc 
ksource) と 使っ て いる タイ マー (cu 
rrent_clocksource) が 表示 され ま 
す 。 こ の 例 で は 「tscl [hpeul 「ac 
pipm」 の 3 種類 の タイ マー が 使用 
で き 、cpu0 は 、 そ の うち 「tsc」 を 
使用 し て いる こと が 分 か り ま す 。 


込む こと で 、 


骨 カー ネル ソー ス を 還 
使っ て みる 

カー ネル 概要 の 説明 な の に いき な 
り 和敬 か れる か も し れ ま せん が 、 せ っ 
か く カ ー ネ ル の ソー スコ ー ド が ある 
の で 、 構造 の 理解 と ちょ っ と し た 経 
験 を 兼ね て 触っ て み ま し ょ う 。 カ ー 
ネル の ビル ド * に も チャ レン ジレ し ま 
す 。 ソ ー ス コー ド の 入手 や ビル ド 手 
順 は 、 デ ィ ス トリ ビュ ーション に よ 
っ て 異な り ま す 。 こ こ で は CentOS 
7.0 を 例 に し ます 


【 フ ル バ ス 】 ディ レク トリ ー の トッ プ ( ル ー ト デ 
ィ レ クト リー) か ら 目 的 の ファ イル や ディ レク トリ 
ー の 位置 を 表す 表記 方 法 。 絶 対 パス と も 呼び 
ます 。 

【 カ レン トディ レク トリ ー】 現在 作業 し て い 
る ディ レク トリ ー で す 。 カ レン トディ レク トリ ー は 
「cd」 コ マン ド で 移動 で きま す 。 

【 ビ ルド 】 ソー スコ ー ド か ら 実 行 で きる バイ ナ 
リー を 生成 する こと 。 コ ン パ バイル な ど を 実施 し 
ます 。 


* 1 これ は 説明 の た め に 用 いた 例 で 、 通 常 は 


「hostname」 コマ ンド を 使っ た り 、「/etc/ho 
sts」 フ ァイル を 書き 換え た り し て 変更 し ます 。 


カー ネル の 仕組 み 


3 su ロペ ーroot 権 限 に 切り 替え 


# exit 品 ペー 一般 コ ユーザ ー に 戻る 


# yum groupfnsta1l1 "Development Tools" 器 

# yum groupfnstal1 "Additional Development" 器 

# yum fnstal1 asc11doc per1-ExtUti1s-Embed xmlto z11b-deve] newt-d 
evel net-tools bc pesign pciutils-deve] wget 品 


\ 


要 な ツー ル 


CentO0S で は 、 目 的 


* cd ご /rpmbu11d/SPECS ロ 
$ rpmbuf1d --nodeps -bp 


図 11 ソー スコ ー ド の 作成 


くつ か の パッ ケー ジ を まとめ た パッ ケ 


ジグ ルー プ が 用 意 さ れ て いる 。 


6_64 kernel.spec ロ 


ビル ド は し な い の で 、64 ビ ッ ト や 32 ビ ピッ ト の 違い を 気 に せ ず に 、64 ビ ッ ト を ター ゲッ ト と する 「-target 


=x86_64」 オ プシ ョ ン を 指定 し た 。 


ソー スコ ー ド は 複数 ある 
ソー スコ ー ド に は 、 本 家 * で ある 
「kernelorg」 が 配布 する 開発 コミ ュ 


スト リ ビ ュ ーション 版 が あり ます 
ディ スト リピ ビュ ーション 版 に は 、 よ 
く 使わ れる ハー ドウ エア や 用 途 に 合 
わせ た 、 コ ン パ イル 時 の パラ メー タ 
ー や 有効 に する コン ポー ネン ト の 設 
定 が 含ま れ て いま す 

ディ スト リ ビ ュ ーション 版 の 多く 


は 、 開 発 = ニテ ィ ー 版 に 比べ 、 
古い パー ジョ ン 番 号 に な っ て いま 
す 。 し か し 、 問 題 は あり ませ ん 。 デ 
ィ ス トリ ビュ ーション 版 で は 旧版 で 
も 、 最 新 の モ キ ュ リ ティ 問題 へ の 対 
処 、 パ グフ ィ ッ クス 、 新 機能 の 移植 


な ど が 行わ れ て いる か ら で す 


ツー ル の 導入 

CentOS を 含む Red Hat 系 の ディ 
スト リ ビ ュ ーション で は 、RPM バ パッ 
ケー ジ * を 作成 し た り 、 ソ ー ス コー 
ド の パッ ケー ジ (ソー スパ ッ ケ 
ら を 生成 し た りす る 
の に 「rpmbuild] コマ ンド を 使い 
ます 。 こ の コマ ンド は 「rpm-build」 
バッ ケー ジ に 入っ て いま す . 

rpm-build パッ ケー ジ を イン スト 
ー ル する に は 、 図 10 の よう に パッ ケ 
ー ジ グル ー プ を 指定 し て 「yumgr 


oupinstalll] コマ ンド を 実行 し ます 
後ほど 実施 する ビル ド に 必要 な 開発 
ツー ル も 合わ せ て 導入 し ます 


ソー スバ ッ ケ ー ジ の 入手 と 導入 

CentOS 70 の ソー スパ ッ ケ ー ジ 
を ダウ ン ロ ー ド し 、 イ ンス トー ル し 
ます 


$ wget http://Vault.centos .org 
77 0 .1406/updates/Source/SPack 
a9es/Kernel-3.10.0-123.8.1.e17 
・Src.FPm 器 

3 rpm -fvh kernel-3.10.0-123.8 
.1.e17.src.rpm ロ 


イン スト ー ル が 完了 する と 、 コマ 
ンド を 実行 し た ユー ザー の ホ 
ィ レ クト リー に 「rpmbuild] ディ レ 
クト リー が 作成 され 、 その 下 に パッ 
含む コー ド 群 、 ビ ルド に 必 
ィ レ クト リー と ファ イル が 置 
か れ ま す - 


ソー スコ ー ド の 作成 

ソー スコ ー ド を 生成 する に は 、 
11 の コマ ンド を 実行 し ます *2。 ソ 
ー ス コー ド を 作成 する の に 、 この よ 
うな 手順 が 必要 な 理由 は 、 先 


ut debuginfo 


ブロ ッ ク デ バイ ス 共 通 部 
デバ イス ドラ イ バ 


fs …・ フ ァイル シス テム 


図 12 カー ネル ソー ス の ディ レク トリ ー 
造 


構 
ソー スコ ー ド は ディ レク トリ ー ご と に 役割 が 貴 う 。 


し た よう に ディ スト リ ビ ュ ーション 
の カー ネル は 、 本 家 カ ー ネ ル に 多く 
の パッ チ を 当て て いる か ら で 

これ で 、「~/rpmbuild/BUILD/ 
kernel-3.10.0-123.8.1.e17/linux- 
3.10.0-123.8.1.el7.x86.64] ディ レク 
トリ ー 配 下 に 、 64 ビッ ト 版 CentOS 
65 の カー ネル ソー ス が 完成 し ます 
カー ネル ソー ス は 、 カ ー ネ ル を 構成 
する 機能 ご と に 整理 され て いま す 
E な サ プ デ ィ レ クト リー と 内 容 を 示 
す と 、 図 12 の よう に な り ま す 


カー ネル の ビル ド 

カー ネル ソー ス と 開発 ツー ル を 使 
て 、 カ ー ネ ル を ビル ド し て み ま し 
う 。CentOS 7.0 で は 、 図 13 の コマ 
実行 し ます 。 32 ビ ッ ト 環 境 で 
は 「x86_64] の 代わ り に 「[i686」 を 
指定 し ます 。 自 分 で ビル ド し た パッ 
ケー ジ 名 が 、CentOS 7.0 同 こん の カ 


9 


1thout debug 1tho 


leffne "bu11did .loca1' kernel.spec 器 


図 13 カー ネル の ビル ド 


32 ビ ッ ト 環 境 で は [xB6_64] の 代わ り に [iG86」 を 指定 する 。 


レン 


ー ネ ル と 同じ に な ら な いよ うに 「bu 
ildid] を 指定 し ます 。buildid に 指定 
し た 文字 列 は 、 パ バッ ケー ジ 名 の 一 部 
に な り ま す 。 ま た 、 試し に カー ネル 
を ビル ド し て イン スト ー ル する 目的 
な ら 、 不 要 な デパ バッグ 用 と パフ ォ ー 
マン ス 解 析 ツ ー ル 「perf] 用 の パッ 
ケー ジ を 作成 し な いよ うに 「-witho 
ul] オプ ショ ン を 指定 し ます 
ビル ド は 、 数 分 で は 終わ り ませ ん 

電子 署名 の メッ セー ジ が 出る まで 
は 、 画 面 を 離れ な いで くだ さい *3 
カー ネル の ビル ド が 終わ る と 、「~/ 
rpmbuild/RPMS/x86_64」 デ ィ レ ク 
トリ ー 配 下 に RPM パッ ケー ジ が 完 
成 し ま す ( 図 14) 


カー ネル の イン スト ー ル と 実行 

ビル ド し た カー ネル を イン スト ー 
ル し ます 。 い つ で も 元 の カー ネル に 
戻れ る よう に 、 ア ッ プ デー ト で な く 、 
追加 で イン スト ー ル し ます 。 カ ー ネ 
ル は 、 他 の パッ ケー ジ と 異な り 、 そ 
れ ぞ れ の パー ジョ ン が 独立 し た ファ 
イル 名 、 ディ レク トリ ー 名 で イン ス 
トー ル さ れ ま す 。 追 加 イ ンス トー ル 

て も 、 何 の 問題 も あり ませ ん 。 カ 
ー ネ ル を 追加 導入 する に は 、 図 15 
の コマ ンド を 実行 し ます *4 

ビル ド し た カー ネル で シス テム 
を 起動 する に は いっ た ん 再起 動 し 、 
プー トロ ー ダ ー の OS 選択 画面 で カ 
ー ソ ルキ ー を 押し て 「kernel3.100- 
1238.1.el7.Jocalx86_64」 を 選択 し ま 
す 。 0S 超 動 後 に 端末 画面 を 開い て 、 
カー ネル の 出力 メッ セー ジ を 表示 す 
る 「dmesg] コマ ンド を 実行 し ま 


$ 1s ご /rpmbui1d/RPMS/x86_64 器 
kernel -3.10.0-123.8.1.e17.1oca1 .x86_64.rpm 


kerne] -devel -3.10.0-123.8.1.e17.1ocal.x86_64.rpm 
kernel-headers-3.10.0-123.8.1.e17.1oca1 .x86_64.rpm 


図 14 完成 し た カー ネル の RPM パッ ケー ジ 
4 つの パッ ケー ジ が 完成 する 。 


$ su ロ 


# rpm -1vh --force カー ネル を ビル ド し た ユー ザー の ホー ム デ ィ レ クト リー /rpm 
bu11d/RPMS/x86_64/kernel] -3.10.0-123.8.1.e17.1oca]l.x86_64.rpm 器 


図 15 カー ネル の 追加 イン スト ー ル 
2 つの ファ イル を 導入 する 。 


* dmesg | head 品 

(中 較 ) 

[ 0.000000] Initializing cgroup subsys cpu 

人 0.000000] Initfa11z1ng cgroup subsys cpuacct 

【[ 0.000000] Linux version 3.10.0-123.8.1.e17.1ocal.x86_64 (11nu 
x@localhost.1ocaldomafn) (qcc versfon 4.8.2 20140120 (Red Hat 4.8.2 
-16 ) (GCC) ) #1 SMP Fr1 Sep 26 04:32:25 JST 2014 

(以下 、 省 略 ) 


図 16 バー ジョ ン 番 号 の 確認 
ビル ド 時 に buildid で 指定 し た 文字 列 が 入っ て いる 。 


3 Bar 1 カー ネル の 全体 像 


す 。 表 示さ れ た Linux の バージョン 
番号 に 、 ビ ルド 時 に buildid で 指定 
し た 文字 列 が 入っ て いま す ( 図 16) 

また 、 ビ ルド し た 、 ユ ー ザ ー 名 と ホ 
スト 名 、 日 時 が 自分 自身 の も ゃ の に な 


も 確認 で きま す 。 表 示さ れ た パージ 
ョ ン 番 号 に ビル ド 時 に 指定 し た 「.loc 


al が 入っ て いま す 


Suname -r 避 


3.10.0-123.8.1.e17.1ocal.x86_64 


っ て いま す 。「uname] コマ ンド で 


【 本 家 】 開発 元 の コミ ュ ニテ ィ ー を 指し ます 。 オ ー プ ン ソー スソ フト ウエ ア で は よく 使わ れる 言葉 で す 。 
【RPM パ ッ ケー ジ 】 Fedora や CentOS、openSUSE な ど に 採用 され て いる ソフ トウ エア の 形式 で 
す 。RPM パ ッ ケー ジ に する こと で 導入 や 削除 、 更 新 が 障 単に で きま す 。 


*2 環境 に よっ て は 、 次 の 行 で 始ま る メッ セ - 出力 後に 、 先 に 進ま な いこ と が あり ます 。 そ の 場 
合 、 電 子 署 名 に 必要 な 乱数 の 発生 を 促す た め に 、 次 に 進み 始め る まで 、 マ ウス カー ソル を 動か し 続け 
で くだ さい 。 


きま 

半 # Now generating a PGP key pafr to be used for sfgnfng modules. 
まま 

(以下 、 省 申 ) 


*3 ソー スコ ー ド 作成 時 と 同様 に 、 環 境 に よっ て は マウ スカ ー ソ ル を 動か さ な い と 、 先 に 進ま な いこ と 
が あり ます 。 

キ 4 ビル ド し た カー ネル を 削除 する に は 、 ま ず シ ステ ム を 再起 動 し 、 ブ ー ト ロー ダー の OS 選択 画面 で 
Tel6」 の 後ろ に 「.local] が 付い て いな い 元 の カー ネル を 選択 し ます 。 起 動 後 、 端 末 を 開い て 次 の コマ 
ンド を 実行 し ます 。 


* su ロロ 
まき rpm -e kerne1-3.10.0-123.8.1.e17.1ocal 16.1ocal ロ 
ま exit 日 


ー 
ル の 仕組 み 
ww 


ンク ニャー ラート 
CFS、 赤 黒木 、 ス レッ ド 、 物 
理 メモ リー、 仮想 メモ リー、 
フォ ルト 、 オ ン 
ジン グ 、 ペ ー ジ 
キャ ッシュ 、Dirty ペ ー ジ 、 ペ 
ー ジ 回 収 、Split LRU、 ス 
ワッ フ 、0OM Killer 


Part2 で は 、Linux カ ー ネ ル を 理解 する 上 で 最も 基本 と な る 、 プ ロ セ ス と メモ リー 管理 を 取り 上 げ ま す 。 
タス クス ケ ジ ュ ー ラ ー、 プ ロ セ ス と スレ ッ ド の 違い 、 メ モリ ー 管 理 方 式 を 解説 し ます 。 


の リソー ス (資源 ) を 「 プ ロ セ モス ] 
と 呼び ます 。Linux は マル チタ スク 
0S で ある た め 、 そ の 上 で 複数 の プ 
ロ セ ス を 同時 に 実行 し ます 
昨今 の PC や サー バー は 、 複 数 の 
CPU を 搭載 し て いま す 。 で す が 、 そ 
同時 に 処理 すべ き プ ロ 
E し ます 。 複数 の プロ セス 
で 、1 つ の CPU を 共有 せ ぎ ざる を 得 な 
い 場合 が ほとん 
1 つの CPU で 一 度 に 実行 で きる プ 
ロ セ ス は 1 つ で す 。 そ の まま で は 複 
数 の プロ モス を 同時 に 実行 で きま せ 
ん 。 そ こ で 、CPU を 利用 で きる 時 
間 を 細か く 分 割 し 、 実 行 し な けれ ば ぼ ば 
いけ な い プ ブロ セス に 対 正 な 配 
分 で 分 け 与え て いま す ( 図 1)。 厳密 
に 言う と 、 これ は 同時 実行 で は あり 
ませ ん 。 た だ 、 と て も 短い 時 間 内 に 


図 1 CPU 上 で の プロ セス 切り 替え 
短い 間隔 で CPU の 利用 時 間 を 分 割 し 、 同 時 に 処理 すべ き プ ロ セ ス に 分 け 与 える 。 


複数 の プロ モス を 交代 で 実 
す 。 見 か け 上 、 同時 に 実行 き 
る よう に な り ま す 

CPU で 実行 する プロ セス を 切り 
替え る 処理 を 「 コ ン テ キ スト スイ ッ 
チ 」 と 呼び ます 。 こ の コン テキ スト 
スイ を 受け 持つ の が 「 タ スク ス 
| 機能 で す 
実行 する 際 、 メモリー 
領域 に プロ グラ ム や デー タ を ロー ド 
し ます 。CPU と 同様 に メモ リー も 、 
同時 実行 され る 各 プ ロモ セス に 対し て 
独立 し た 領域 を 提供 し ます 。 こ れ に 
より 、 同 時 実行 中 の プロ モス が 、 他 
の プロ モス が 使用 し て いる メモ ! 


で きま 


は プロ セス 間 で 互 
を 共有 きせ る 場合 も あり ます 

この よう に プロ モス か ら の メモ リ 
ー テ クセ モス を 適切 に 処理 する の が 、 


国 CPU 割り 当て 
ーーーー CPU 未 割り 当て 


「 メ モリ ー 管 理 | 機能 で す 


プロ セス | 
スケ ジュ ー ラ ー 

タス タク スケジュー ラー は 、 CPU が 
次 に 実行 すべ き プ ロモ セス を 決定 する 
役割 を 担い ます 。 た だ し 、 多 く の プ 
ロモ ス を 同時 実行 し て いる 場合 、 そ 
れ を 決定 する の は 容易 で は あり ませ 
ん 。 長 い 時 間 実行 を 待た 
た プロ セス が ある と 、 
プリ ケー ショ ン の 応答 や 動作 


な っ て し まう こと が ある か ら 


ます 。 こ の アル ゴリ ズム に よっ て 、 
スケ ジュ ー ラ ー が 異な り ま す 


公平 性 を 保てる 「CFS」 

現在 の Linux で は 、「CFS」 (Com 
air Scheduler) と 呼ば れる 
スケ ジュ ー ラ ー を 標準 で 利用 し て い 
ます 。 2014 年 9 月 下旬 時 点 の Linux 
カー ネル の 最新 パー ジョ ン は 3.163 
で す が 、CFS は それ より も 古い パー 
ジョ ン 26.23 か ら 採 用 され まし た 
スケ ジュ ー リ ング 対象 の プロ モス 数 
増加 に 伴う スケ ジュ ー ル コス ト ( 作 
能 な どの 損失 ) の 増大 へ の 対応 、 対 
話 型 の プロ グラ ム (GUI ア プリ ケー 


plet 


小さ い 値 


大 きい 値 。 成 ) 


図 2 二分 探索 木 と 赤黒 木 
デー タ の 集まり を 木 格 ( 陵 層 ) で 扱う 形式 。 


に 関す る 公平 性 な ど を 
考慮 し て 開発 され て いま す 


ショ ン な ど ) 


人 具体 的 な 動作 
>FS で は 、 プ ロモ セス が CPU を 使 
用 し た 時 間 「vruntime| を 基 に 、 ス 
ケ ジ ュ ー リ ング を 実施 し ます 。 具体 
的 に は 、 すべ て の プロ セス の 中 か ら 
vruntime の 値 が 最も 小さ いも の を 、 
次 に 実行 する プロ セス と し て 選び ま 
す 。 選択 の アル ゴリ ズム と し て は 、 
- 分 擦 索 木 の ー つ で ある 「 赤 黒木 ] 
を 利用 し て いま す 
- 分 探索 木 は 、 デ ー タ の 集まり を 
木 構造 (階層 ) で 扱う 形式 で す ( 図 
2 の 左 )。 根 、 節 、 葉 に デー タ ( 値 ) 
を 配置 し ます 。 上 が 親 で 下 が 子 と 
いう デー タ の 親子 関係 も 持ち ます 
は 、 根 、 節 、 葉 が それ ぞ れ 同 
時 2 する プロ モス に な り ま す 。 デ 
ー タ に は 、 vruntime を 格納 し ます 
- 分 探索 木 で は 、 親 は 右左 それ ぞ 
れ に 最大 1 つの 子供 を 持っ 
で す 。 親 の 左側 に いる 
途 は 、 親 よ り MS な 
右側 は その 逆 で す 。 こ の 条件 か ら 、 
木 全体 で 1 大 きい 
値 が 石 側 に 配置 きれ ま す 
赤黒 木 で は 、 二 分 探索 木の根 、 節 、 
葉 を ボ と 黒 に 色分け する こと で 木 の 
保ち ます ( 図 2 の 右 )。 根 
の 色 は 黒 に た り ま す 。 赤 の 親 の 子供 


パラ ンス 


赤 と 黒 の 条件 を 加え る こと で 
木 の バ ラン ス が 保 た れる ( 同 
じ 構造 を 取れ な い 場 合 は 再 構 


図 3 CFS の 動作 
赤黒 木 に よっ て 、 次 に 実行 する プロ セス を 選ぶ 。 


は 、 必ず 黒 で す 。 根 か ら 葉 まで の 時 
の 数 は 、 ど の 枝 で も 同じ に し な けれ 
ば いけ ませ ん 
これ ら の 条件 か ら 長 い 枝 と 短い 校 
の 差 が ほとん ど な く な り ま す 。 根 か 
ら 葉 まで の 枝 の 長き が 、n 個 の デー 
タ で Oxlogzn (O は 節 か ら 節 まで 
の 枝 の 長き ) ぐら い に な り ま す 
ぐれ で は 、 図 3 を 使っ て CFS の 動 
作 を 説明 し まし ょ う 。 証 一 回 の 処 
理 が 、 ス ケ ジ ュ ー ラ ー 内 で 繰り 返さ 
れ て いま す 
環 赤黒 木 の 最 左端 (最小 の vrunti 
me) に 位置 する プロ セス を 取り 出 
し て 実行 する 
回 与え た CPU 時 間 内 に プロ セス の 
処理 が 終わ ら な か っ た ら 、 該 当 
プロ セス の vruntime に CPU 利用 
時 間 を 加算 する 
回 更新 し た vruntime の 値 を 基 に 、 赤 
黒木 に プロ セス を 戻し て 再 構 成 
を 実施 する 
回 細 に 戻る 
赤黒 木 に 戻す プロ モス は 、 右 端 近 
くに 配置 で きる よう に 、vruntime 
に CPU 利用 時 間 を 加算 し て いま す 
vruntime が 短い プロ モス か ら 取 り 
出し て いく こと で 、 同時 に 実行 され 
で て いる プロ セス 問 で 一 定 の 公平 性 を 
保っ て いま す . 
CFS が 1 つの プロ モス を スケ ジュ 
ー リ ング する 時 間 は 、 
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CFS の スケ ジュ ー リ ング 時 間 ニ 
環 の 赤黒 木 か りら プロ セス を 取り 
出す 時 間 十 回 の 赤黒 木 に プロ セ 
ス を 戻し て 再編 成す る 時 間 


に な り ま す 。 こ の うち 、 プロセ ス を 
取り 出す 時 間 は 、 赤 黒木 の 最も 左端 
に ある も の が 選ば れる の で 、 同 時 実 
行 の プロ モス 数 が 増加 し て も 一 定 で 
す 。 一 方 で 、 プロ セス を 赤黒 木 に 戻 
し て 再編 成す る 時 間 は 、 赤 黒木 の 校 
の 長き に 依存 し ます 。 赤黒 木 の 説 明 
に 記し た よう に 、 校 の 長き は O xlo 
gsn (一 般 的 に O (log n) と 記述 ) 
に な り ま す 

n を 同時 実行 の プロ セス 数 と 考え 
る と 、 赤 黒木 に 戻し て 再編 成す る 時 
間 は 、O (log n) で 表せ ます 。 対 
数 な の で 、n が 大 きく な っ て も ある 

- 定 の 時 間 内 に 収まり ます 

ここ で は 、CFS の 説明 を 単純 化す 
yruntime の 値 を CPU を 


る た め に 、 
利用 し た 時 間 と 定義 し まし た 。 実際 
に は 、CPU の 利用 時 間 に 対 し て 優先 
度 を 表す 「nice」 値 き に よる 補正 が 
行わ れ ま す 。 nice 値 が 「1] 大 きく 
な る (優先 度 が 低く な る ) と 、vru 


【nice 値 】 プロ セス を 実行 する 際 の 優先 
度 を 表す 値 で す 。-20 … 19 の 範囲 の 整数 
で 指定 され ます 。 「-20」 が 最も 優先 度 が 高く 、 
「19」 が 一 番 低く な り ます 。 通 常 は [0] に な っ 
て いま す 。 


図 4 vruntime を 調べ る 
Tproc」 フ ァイル シス テム か ら 確 認 で きる 。 


プロ セス ご と に 仮想 
メモ リー が 異な る 


仮想 メモ リー に アク セス が あっ た 時 
点 で 物理 メモ リー が 割り 当て られ る 


ntime の 加算 が 約 1.25 倍 に な り ま す 
生生 対話 型 の プロ グラ ム に 
する 公平 性 も 保つ よう に 設定 きれ 
ae 具体 的 に は 、 プロ モス の 
スリ ー プ (入力 を 待っ て いる ) 時 間 
を 考 成 し 、 ス リー ブ 状 態 か ら ウ ェ イ 
クア ッ プ し て きた (入力 カ 
再び 実行 で きる 状態 に な っ た ) プロ 
セス を 優先 的 に スケ ジュ ー リ ング し 
ます 


カ ー ネ ル ソー ス 内 の 対応 箇所 

赤黒 木 に 戻し て 再編 成す る 処理 
は 、 カ ー ネ ル ソー スコ ー ド 内 の 「ke 
Trnel/sched/fairc] ファ イル に 記さ 
れ て いま す 。「update_curr ()」 関 
数 が それ で す 。 

各 プ ロモ ス の vruntime は 、「task_ 
structl 構造 体 を の メ ン バ ー 変 数 と 
し て 保持 し て いま す 。 こ の 値 は 、 カ 
ー ネ ル が 管理 する 各種 デー タ に アク 
モス で きる 「proc」 ファ イル シス テ 


利用 し て いる 仮想 メモ リー は 物理 
メモ リー に 対応 付け られ て いる 


図 5 仮想 メモ リー と 物 
理 メ モリ ー の 対応 付け 
物理 メモ リー を 「 ペ ー ジ 」 と 
いう いく つか の 固まり に 分 
割 し 、 ペ ー ジ 単位 で 必要 な 分 
だ け 仮 想 メ モリ ー に 割り 当 
て る 。 


ム か ら 確 認 で きま す ( 図 4) 


プロ セス と スレ ッ ド の 違い 
プロ グラ ム を 動か す 単位 と し て 
プロ セス 以外 に 「 ス レッ ド 」] が あ 
り ま す 。 ス レッ ド は 、 大 量 の メモ 
リー を 共有 し て 並列 処理 を 実行 す 
る プロ グラ ム に 使わ れ ま す 。 例 え 
ば 、 Java の 仮想 マシ ン や 仮想 化 機 
能 「KVM」、GUI (ダラ フィ カル ユ 
ーー ザー インタフェース) フレ ー ム ワ 
ー ク な ど で す . 
プロ セス は 、 大 ま か に 分 け て 次 の 
3 つの 要素 で 構成 され て いま す 
(1) 仮想 メモ リー (後述 ) 用 の アド 
レス マッ プ 情 報 
(2) 実 行 用 コン テキ スト (プロ グラ 
バカ ウレ ター ュ や スタ ッ ク あ が 
どの CPU レジ スタ * 上 の 情報 ) 
(3) 状態 ・ ア カウ ン テ ィ ン グ 情 報 * 
簡単 に 説明 する と 、 ス レッ ド は 
(2) と (3) を 固有 に 持ち 、(1) を 


共有 し ます 。 そ の た め 、 メモ リー を 
独立 で 持つ プロ モス と 比較 し 、 ス レ 
ッ ド は メモ リー 資源 を 有効 に 活用 
で きま す . 


六 メモ リー | 
管理 機能 
Linux で は 、 物 理 メ モリ ー へ の 直 
接 ア クセ モス を 、 カ ー ネ ル の み に 制 限 
し て いま す 。 そ の 代わ り に 、 プ ロモ 
ス ご と に 独立 し た 仮想 的 な メモ リー 
を 用 意 し ます 
32 ビ ッ ト 版 の Linux の 場合 、 カ 
ネル が 利用 する 領域 も 含め て 仮想 メ 
モリ ー の サイ ズ は 4G パ イト に な り 
ます 。 プ ロモ ス は 、 その 領域 を 自由 
に 利用 で きま す 


メモ リー の 確保 

自由 に 使え る と 言い まし た が 、 プ 
ロモ ス ご と に 4G バ イト (64 ビ ッ ト 
な ら 4G バ イト より も は る か に 大 き 
い サ イズ ) の メモ リー を 与え る こと 
は 不可 能 で す 。 物理 メモ リー の サイ 
ズ は 超え られ ませ ん 

よっ て 、 各 プ ロモ セス が 必要 と し た 
量 だ け を 、 物 理 メ え モ リー から 仮 想 メ 
モリ ー に 割り 当て ます ( 図 5)。 物 
理 メ モリ ー を 「 ペ ー ジ 」 と いう 単 
位 で 固定 長 に 分 割 し 、 ペ ー ジ 単位 
で 必要 な 分 だ け 仮想 メモ リー と 対応 
付け ます 。 

具体 的 に は 次 の 動作 に な り ま す 。 
ユー ザー プロ グラ ム (アプ リ ケ ー シ 
ョ ン な ど ) か ら メ モリ ー を 確保 する 
た め の malloc () 関数 な ど を 実行 
し た 場合 、 仮想 アド レス に 対応 する 


| 物理 メモ リー 


/ 当 て ら 


し れ て いな い 


の 割り 込み 


(ペー ジフ ォ ル ト ) 


創り 当て 処理 
(オン デマ ンド ペー ジン グ ) 
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キャ ッシュ 内 に 読み 出し た い デ ー タ が 
あれ ば HDD に アク セス し な く て 済む 


仮想 メモ リー と 物 デー タ が まとまっ て か 
理 メ モリ ー の 対応 る 
を 管理 する ハー ド 


ウエ ア 


Linux カ ー ネ ル 


キャ ッシュ 内 に 書き 込め ば プロ セス 側 
の 妊 き 込み 処理 は 完了 


図 6 メモ リー の 確保 


割り 込み (ペー ジフ ォ ル ト ) を 受け 取っ た カー ネル が 仮想 アド レス と 物理 アド レス 


を マッ ピン グ し 、 物 理 メ モリ ー の 領 城 を 確保 する 。 


物理 メモ リー は 、 すぐ に 確保 きれ ま 
せん 。 仮想 ア ドレ ス * で 指定 し た メ 
モリ ー 領 域 が 物理 メモ リー 上 に 確 
保 き れ て いな いり 場合 、 物理 メモ リー 
を 管理 し て いる ハー ドウ エア (メモ 
リー 管理 ユニ ッ ト : MMU) か ら 割 
り 込 み * が 発生 し ます 。 割り込み を 
受け 取っ た カー ネル が 仮想 アド レス 
と 物理 アド レス を マッ ピン グ し 、 物 
理 メ モリ ー の 領域 を 確保 し ます ( 図 
6)。 マ ッ ピ ング し た 情報 は 、 テ ー ブ 
ル と し て 管理 し て いま す . 

この よう に 、 仮想 アド レス に 対応 
する 物理 メモ リー が 確保 きれ て いな 
い 場合 に 発生 する 割り 込み を 「 ペ ー 
ジフ ォ ル ト 」、 必 要 に 応じ て 物理 メ 
モリ ー を 確保 する 仕組 み を 「 オ ン デ 
マン ド ペ ー ジ ング 」 と 呼び ます 。 


アク セス 速度 を 速く する キャ ッシュ 
メモ リー は 、 プ ログ ラム 実行 用 の 
領域 (プロ グラ ム 本 体 の ロー ド や 、 
変数 保持 用 ) と し て 使用 する 以外 に 
「 キ ャ ッシュ *」 と し て も 利用 きれ て 
いま す 。 
Linux で は 、 メ モリ ー に 比べ て ア 


図 7 ディ スク アク セス を 高速 化す る キャ ッシュ 
読み 出し と 書き 込み の 両方 で キャ ッシュ を 利用 する 。 


クセ ス 速 度 が 遅い ディ スク (ファ イ 
ル シ ス テム ) か ら デ ー タ を 読み 込ん 


で 、 低速 な ディ スク へ の 書き 込み を 
待た ず に プロ セス が 次 の 処理 に 移 れ 


だ 場合 、 そ の デー タ を メモ リー 内 に 
可能 な 限り キャ ッシュ し ます 。 同 
じ デ ー タ に アク セス する こと が あれ 
ば 、 高速 な 読み 出し を 実現 で きま す 
( 図 7 上 ) 

また 、 デ ィ ス ク に デー タ を 書き 込 
むと き に も キャ ッシュ を 使用 し ます 


ます 
以上 の 用 途 に 利用 する キャ ッ シ 
ュ を 「 ペ ー ジ キャ ッシュ 」 と 呼び ま 
す 。 仮 想 メ モリ ー と 同様 に 、 キ ャ ッ 
シュ も ペー ジ 単 位 で 利用 きれ ます 。 
ペー ジ キ ャ ッシュ の うち 、 ディ ス 
ク に 書き 込ま れ て いな い 、 ま た は 書 


( 図 7 下 )。 明示 的 に 同期 書き 込み を 
指定 し な い 限 り は 、 キ ャ ッシュ に デ 
ー タ を 書き 込ん だ 時 点 で 、 プ ロモ ス 
に 書き 込み 完了 が 通知 きれ ます 。 こ 
の よう に 、 非 同期 処理 を 用 いる こと 


き 換え られ て いな い デ ー タ を 保持 し 
て いる も の を Dirty ページ ] ( 汚 
れ た ペー ジ ) と 呼び ます 。 Linux で 
は 、 こ の Dirty ペー ジ 内 の デー タ を 
ディ スク に 書き 込む 場合 、 可能 な 限 


【task_struct 構 造 体 】 プロ セス が 使用 し て いる メモ リー や ファ イル 、 ソ ケッ ト 、 シ グ ナ ル な どの 情報 を 
管理 する 配列 の 一 種 で す 。 構 造 体 と は 配列 を 拡張 し た も の で 、 任 意 の 情報 を さま ざま な 形式 で 保存 で 
きま す 。 構 造 体 内 の 各 要素 を メン バー と 呼び ます 。 

【 プ ログ ラム カウ ンタ ー】 CPU で 次 に 実行 する 命令 が 格納 され て いる メモ リー の アド レス を 保持 し て 
いる 、CPU 内 の 小さ な メモ リー で す 。 命 令 が 実行 され る た びに 書き 換わり ます 。 

【 ス タッ ク 】 プロ グラ ム 実 行 時 の 作業 用 と し て 利用 され る メモ リー で す 。 デ ー タ を 退避 し て 必要 な と き 
に 取り 出す よう な 使い 方 を し ます 。 

【CPU レ ジス タ 】 CPU 内 に ある 命令 や 演算 結果 、 各 種 状 態 な ど を 格納 する 小さ な メモ リー で す 。 

【 ア カウ ン テ ィ ング 情報 】 プロ セス が 利用 し て いる CPU や メモ リー な どの リソー ス 使用 量 の カウ ンタ 
一 情報 で す 。 

【 仮 想 アド レス 】 仮想 メモ リー の アド レス で す 。 仮 想 メ モリ ー に アク セス する に は 、 番 地 と な る この アド 
レス を 指定 し ます 。 

【 割 り 込み 】 実行 し て いる 処理 を 中 断 し て 別 の 処理 を 割り 込ま せる 仕組 み で す 。Linux カ ー ネ ル に 
は 、 さ ま ざ ま な 割り 込み 処理 が 用 意 さ れ て いま す 。 

【 キ ャ ッシュ 】 メモ リー な どの アク セス 速度 が 速い デバ イス に 、 一 時 的 に デー タ を 保存 する 方 法 お よ 
びそ の 保存 先 で す 。 も し 、 キ ャ ッシュ 内 に 読み 出し た い デー タ が あれ ば 、 高 速 に アク セス で きま す 。 


# cat /proc/meminfo ロロ 
(中 菩 ) 


(以下 、 省 略 ) 


図 8 キャ ッシュ や Diry ペ ー ジ の 使用 量 


/proc/meminfo フ ァイル か ら 確 認 で きる 。 


開始 


プロ グラ ム が メモ リー 
確保 を カーネル に 要求 


(中 路 ) 


Buffers: 287776 kB ] っ ュ 。。。 Act1ve (anon) : 
Cached: 297836 細 ペー スス ンコ Inactve (anon) : 
(中 義 ) Actve (ff1e) : 

Dirty: 76 kB ョ ーー Dirty ペ ー ジ Inactfve (fle) : 


(以下 、 省 略 ) 


# cat /proc/meminfo ロ 


78748 kB ] 
1184 kB 

229572 kB ] 

354644 kB 」 


Anonymous ペー ジ 


\ー ジ キャ ッシュ 


図 9 Splitt LRU に よる リス ト 
こち ら も /proc/meminfo フ ァイル か ら 確 認 で きる 。 


図 10 ペ 


収 を 含め た メモ リー 確保 の 処理 


メモ リー が 確保 で き な い 場合 は スワ ッ プ や OOM Killer (Out of Memory Kille) を 利用 する 。 


り 遅 延 き せ て か ら ま と め て 処理 し ま 
す 。 こ れ に より 書き 込み 時 の 効率 を 
上 げ て いま す 

ペー ジ キ ャ ッシュ や Dirty ペー ジ 
の 使用 量 は 「/proc/meminfo] ファ 
イル か ら 確 認 で きま す ( 図 8)。 「Bu 
ffers] と 「Cached] の 値 が 、 そ れ ぞ 
れ 書 き 込み 用 と 読み 出し 用 の ペー ジ 
キャ ッシュ に な り ま す 。「Dirty」 が 
Dirty ペー ジ で す 。 

プロ セス は ペー ジ キ ャ ッシュ 以外 
に 、 プロ グラ ム の 実行 に 必要 な ヒー 
プ 領 域 * や スタ ッ ク 領 域 も 、 メ モリ 
ー 上 に 保持 し て いま す 。 こ うい っ 


た 、 フ ァイル と 関連 付け され て いな 
い メ モリ ー 領 域 を 
ー ジ 」 と 呼び ます 。Anonymous ペ 
ー ジ の 容量 も /proc/meminfo フ ァ 
イル で 確認 で きま す 


「Anonymous ペ 


効率 的 な メモ リー 回 収 の 
「Split LRU」 
前 述 し た よう に 、Linux で は キャ 


ッシュ 内 に デー タ を 可能 な 限り 保持 

する こと 記 読み 出し 処理 を 実 
現し て いま す 。 た だ し 、 シス テム 全 
NRN ーッ は メ 
モリ ー の 割り 当て を 解除 する 「 メ モ 


リー 回 収 」 を 実行 し ます 

Linux で は 「LRU] (Least Recen 
tly Used) の アル ゴリ ズム を 使っ て 
メモ リー 回 収 を 実施 し て いま す 。 従 
来 は 、 ペ ー ジ が キャ ッシュ 用 途 で 利 
用 され て いる か どう か に 関係 な く 、 
最近 アク セス が あっ た も の を 「Acii 
vel リス ト 、 な いも の を 「Imnactive」 
リス ト と し て 、2 つ の リス ト で 整理 
し て いま し た 。 メ モリ ー が 不足 し た 
場合 、Inactive の リス ト 内 か ら 優 先 
し て 解放 し ます 

この よう に アク セス 状況 だ け で リ 
スト 化す る と 、Inactive で も 解放 で 
き な い 可能 性 も あり ます 
の リス ト に は 、Anonymous ページ 
も 含ま れ て いる か ら で す 。 最 近 アク 
モス が な く て も 、Anonymous ペー 
ジ に は プロ グラ ム の 動作 に 必要 な 情 
報 が 保存 きれ て いる の で 、 む や み に 
解放 で きま せん 

この ほか 、 メ モリ ー の 大 容量 化 に 
伴い 、Inactive と いう 1 つの リス ト 
に よる メモ リー 回 収 処理 の 負荷 も 問 
題 と な っ て いま し た 

カー ネル 26.28 か ら 導 入 さ れ た 
[Split LRU] で は 、Anonymous ペ 
ペー ジ キ ャ ッシュ を 分 け て 、 
Active と Imactive の リス ト を 管理 
し て いま す 。 メ モリ ー が 不足 し た 場 


合 は 、Inactive の ペー ジ キ ャ ッシュ 
この Split 


Inactive 


を 優先 的 に 回 収 し ます 。 
LRU に よる リス ト の 状 
meminfo フ ァイル か ら 確 記 
( 図 9) 


#fnclude <std1o.h> 


1nt mafn(){ 
while(1) 


return 0: 
} 


図 11 nice 値 に よる ス 詞 り 52 
時 間 の 四 い を 試す プロ グラ ム (testc) 
(無限 ) ル ー プ に より CPU リソー ス を 消 
忠 す る だ け の 単純 な も の だ 。 


物理 メモ リー 不足 の 対処 

メモ リー 回 収 を 実行 で き な い と き 
の た め に 「 ス ワッ プ | や 「OOM Ki 
ller」 (Out of Memory Killer) の 機 
能 が 用 意 さ きれ て いま す 。 そ れ ら を 説 
明 す る た め に 、 ペ ー ジ 回 収 を 含め た 
メモ リー 確保 の 処理 を 図 10 の フロ 
ー チ ャ ー ト に まとめ まし た 

スワ ッ プ は 、 ハ ー ド ディ スク 内 に 
あら か じ め 用 意 し た 、 メ モリ ー と し 
て 使え る 領域 で す 。 メ モリ ー 不 足 に 
な っ た ef 利用 中 の メモ リー 領域 
の うち アク モス 上 度 の 低い も の を ス 
ワ っ 2 書き 出し た 領 域 
の メモ リー を 回 収 し ます 。 こ の 処理 
を 「 ス ワッ プア ウト 」| と 呼び ます 

スワ ッ プ アウ ト に より スワ ッ プ に 
書き 出し た デー タ に 対し て アク モス 
が 発生 し た 場合 は 、 逆 に スワ ッ プ 
か ら 物 理 メ モリ ー 上 に 書き 戻さ きれ ま 
す 。 こ の 処理 を 「 ス ワッ プイ ン ] と 
呼び ます 。 な お 、 こ の 2 つの 処理 を 
総称 し て スワ ッ プ と も 呼び ます 

OOM Kiler は 、 ス ワッ プ も メモ 
リー 回 収 も で き な い と き に 、 メ モリ 
ー 領 域 を 確保 する た め 、 稼働 中 の プ 
ロモ ス を 強制 終了 する 機能 で す 。 強 
制 終了 に より 、 その プロ セス が 利用 
し て いた メモ リー が 解放 され ます 。 
強制 終了 の 対象 と な る プロ モス は 、 
多く の メモ リー を 確保 で き 、 か つ 長 
時 間 動作 し て いる も の か ら 選 ば れ ま 
す 。OOM Killer は 、 メ モリ ー 不 足 
で シス テム 全体 を 停止 きせ な いた め 


VIRT RES 
3972 284 
3972 284 
0 15092 1156 
0 19416 1544 


(gT、 省略 ) 
図 12 プロ セス の 実行 状態 


TANE* COMMAND 


「TIME+」 に 、 各 プロ セス が CPU を 利用 し た 時 間 の 合計 が 表示 され る 。 


の 最終 手段 で す 

継続 的 に スワ ッ プ が 発生 し た り 、 
OOMI Killer が 発動 し た りす る 場合 
ょ ま 、 シ ステ ム の 安定 運用 に 必要 な 物 
理 メ モリ ー が 不足 し て いま す 。 シス 
テ ュ 構 成 や 動作 し て いる プロ グラ ム 
の 見 直し が 必要 で し ょ う 


條 人 4 


で は 、 こ れ ま で 解説 し て きた 内 容 
の うち 、 nice 値 に よる スケ ジュ ー リ 
ング 時 間 の 違い を 実機 で 確認 し て み 
まし ょ う 。 利 用 する Linux デ ィ ス ト 
リ ビ ュ ーション は 、CentOS 7.0 で 
す 。 こ の CentOS を PC に イン スト 
ー ル し 、 イ ンタ ーネット に 投 続 し た 
状態 で 、 図 11 の プロ グラ ム を 動作 
させ ます 

これ は 、 ビ ジー (無限 ) ルー プ に 
より CPU リソー ス を 消費 する だ け 
の 単純 な も の で す 。 ま ず は エディ タ 
で 、 こ の ブロ グラ ム を 「testc」 フ 
テ ァイル と し て 新規 に 作成 し ます 


Svi test.c 器 


作成 し た ら 、 コ ン バ パイ ル で きる 環 
境 を 構築 し ます 。 こ の プロ グラ ム は 
C 言 語 で 書か れ て いる の で 「gcc」 バ 
ッ ケ ー ジ を イン スト ー ル し ます 


* su 日 
ま # yum fnsta1]1 gcc 品 


比較 し や すい よう に 、 同 じ ソ ー ス 
コー ド か ら 「testl」 と 「test2] の 2 
つの 実行 ファ イル を 生成 し ます 。te 
stc の ソー スコ ー ド と 、「o」 オプ シ 
ョ ン に それ ぞ れ の ファ イル 名 を 指定 
し 、gcc コマ ンド で コン バイ ル を 実 
行 し ます 


# gcc -Mal]l -o testl test.c 品 
# gcc -Mall -o test2 test.c 器 


testl の nice 値 を 「10]、test2 の 
nice 値 を 「11] に 設定 し 、 CPU0 上 
で 実行 し ます 


# yum fnstal1 numact] 器 

# numact] --physcpub1nd=0 --me 
mb1nd=0 nice -n 10 ./test1 & 品 
# numact] --physcpub1nd=0 --me 
mbfnd=0 nfce -n 11 ./test2 & 器 


プロ モス の 実行 状態 を 表示 する 
「top」 コマ ンド で 、 testl と tes(2 が 
CPU を 利用 し た トー タル の 時 間 を 
見 て みる と 、 それ ぞ れ 「00854」 と 
「00:06.72] に な っ て いま す ( 図 12)。 
『 公 平 性 を 保てる 「CFS」』 の 箇所 で 
述べ た よう に 、nice 値 が 1 異な る と 、 
約 125 倍 の 差 で 優先 度 が 変わ る こと 
が 分 か り ま す 。 


【 ヒ ー プ 領域 】 OS や アプ リケーション が 一 
時 的 に 確保 する メモ リー 領域 で す 。 必 要 な と 
き に 確保 し 、 不 要 に な っ た ら 開 放し ます 。 フ ァ 
イル や デー タ を いっ た ん メモ リー 上 に 保持 し た 
いと き な ど に 使用 され ます 。 


OO 三 


ネリ の 仕組 み 


ブ ァ イル シズ デム ど 
ズ 回 ッ タ レイ ヤー 


Part3 で は デー タ を ファ イル と し て 保存 ・ 管 理 す る 「 フ ァイル シス テム 」 と 、 
I/O (入出 力 ) 要求 を 適切 に 処理 し て ディ スク の デー タ を 読み 書き する 「 ブ ロッ クレ イヤ ー」 に つい て 解説 し ます 。 


テキ スト エディ タ や ワー プロ な ど 
を 使え ば 、 誰 で も 簡単 に ファ イル を 
作成 ・ 編 集 で きま す 。 ユ ー ザ ー や テア 
プリ ケー ショ ン に は ファ イル と し て 
見 えて いる コン ピュ ー タ 内 の デー タ 
は 、 ハ ー ド ディ スク (HDD) な ど 
の スト レー ジ に その まま の 形式 で 保 
存 き れる わけ で は あり ませ ん 

スト レー ジ の 内 部 は 、 先 頭 か ら 
通し 番号 が 付い た 固定 長 の プロ ッ ク 
(記憶 領域 ) が 並ん で いま す 。 一 方 、 


向 ワー プロ 
人 


| ファ イル 
1 デ 


テキ スト 
エディ タ 


カー ネル 


ファ イル シス テム 


ブロ ッ ク レ イヤ ー 


ファ イル は サイ ズ が 任意 (不定 長 ) 
で 、 デー タ 以 外 に ファ イル 名 や 所 有 
者 、 更 新 日 時 な どの 属性 情報 を 含ん 
で いま す て 、 フ ォ ル ダー ( デ 
ィ レ クト リー) ご と に 分 割 し て 保存 
きれ て いま す 。 ス トレ ー ジ 内 の プロ 


ッ ク と ファ イル で は 、 形式 が 全く 異 
な り ま す 
この プロ ッ ク と ファ イル の 形式 の 


人 違い を 埋め る の が 、 カ ー ネ ル 内 の 
「 フ ァイル シス テム 」 と 「 プ ロッ ク 


レイ ヤー」 で す ( 図 1)。 プ ロッ クレ 
イヤ ー と スト レー ジ の 間 に は 「 デ バ 
イス ドラ イ バ 」 も あり ます が 、 これ 
に つい て は Part5 で 扱い ます 

ファ イル シス テム の 機能 


ファ イル シス テム は 、 フ ァイル の 


usr 


デバ イス ドラ イ バ 


ハー ド デ ィ スク 
(HDD) 


図 1 ファ イル シス テム と ブロ ッ ク レ イヤ ー 
ディ スク 内 の ブロ ッ ク と ファ イル の 培い を 埋め る 。 


マウ ント 、 ア クセ ス 権 、 フ ァ イ 
ル 操 作 、!/0 要 求 、VFS、 ジ 
ャ ー ナ ル 、 ロ グスト ラク チャ 
ー ド 、 COW、 |/O0 ス ケ ジ 
ュー ラー、 CFQ、 マル チキ 
ュー、XFS、 エ クス テン ト 
方 式 、 ア ロケ ーション グル ー 
ズ 遅延 アロケーション 


読み 書き と いっ た 基本 機能 だ け で な 

多く の 機能 を 備え ます 。 パ バス 名 
と ファ イル の 対応 付け 、 階 層 デ ィ レ 
クト リー に よる 管理 も そう で す が 、 
* は 次 の 4 つ を 取り 上 げ ま す 


・ マ ウン ト 

・ ア クセ ス 権 の 管理 

・ フ ァイル 操作 と 1/O 要求 の 発行 

・ メ モリ ー 管 理 と 連携 し た デー タ の 
キャ ッシュ 


(1) マウ ント 

「 マ ウン ト 」 は 、 デ ィ レ クト リー 
の 木 構造 に に ファ イル シス テム を 接 
ぎ 木 する こと で す ( 図 2)。 こ れ に よ 
り 、Windows の 「C] ドラ イブ の よ 
うな 指定 な し に 、 パス 名 だ け で その 


マウ ント 


図 2 マウ ント 
パス 名 だ け で 異な る ドラ イプ に も アク セス で きる 。 


中 に ある 任意 の ファ イル に アク モス 
で きま す 。 

に (Network File Syst 
em) の よう に リモ ー ト に 存在 する フ 
ァイル シス テム に も 、 特 別 な 形式 の 
パス 名 を 使う こと な く ア クセ ス で き 
ます 


(2) アク セス 権 の 管理 

ファ イル に 対し て 誰 に どの よう な 
アク セス を 認め る か を 設定 ・ 管 理 す 
る の も 、 フ ァイル シス テム の 重要 な 
機能 で す 。 古典 的 な アク セス 権 管 
理 で は 、 フ ァイル に オー ナー (所 有 
者 ) と グル ー プ (所 有 グ ルー プ ) を 
設定 し 、 オ ー ナ ー、 グ ルー プ の メン 
パー、 そ の 他 の ユー ザー の それ ぞ れ 
に 、 読み取り r)、 書 き 込 み (w) 、 
ファ イル の 実行 また は ディ レク トリ 
ー 検 索 (x) の 許可 / 禁 止 の 権限 を 
設定 を 与え ます 

Ubuntu や Fedora な どの 主要 な Li 
nux ディ スト リ ビ ュ ーション が 採用 
し て いる 「AppArmor*] や 「SELi 
nux* | で は 、 こ の 古典 的 な アク セス 
権 より きめ 細か い 権 限 設定 が 可能 
に な っ て いま す 。 こ の うち 、SELin 
ux は 、 フ ァイル に 任意 の 属性 情報 を 
付与 する ファ イル シス テム の 機能 を 
使用 し ます 。 図 3 は 、Fedora 20 で 
SELinux に よる 強制 アク セス 制御 の 
設定 を 表示 させ た 例 で す 。 


(3) ファ イル 操作 と 1/O 要求 
権限 が 与 を られ て いれ ば 、 フ ァ イ 

ル の 作成 や 読み 書き 、 削 除 、 デ ィ レ 

クト リー の 作成 や 削除 な どの 操作 が 


# ls -Z7/ 器 
1rwxrwxrwx. root root lsyste 
dr-xr-xr-x. root rootlsystet 
(以下 、 省 略 ) 


Fedora 20 で の 例 。 


図 3 SELinux に よる 強制 アク セス 制御 の 設定 


[ 理 良 ファ ィ ル シス テム と スロ ッ ク レ イヤ ー 


bfn -> usr/bin 
boot 


SELinux に よる 強制 アク セス 制御 の 設定 


# echo 3 > /proc/sys/vm/drop_caches 口 ペー キャ ッシュ の 解放 
ま free 口 ペー メモ リー の 状態 を 確認 
used 


tota1 
Mem: 1546024 
-/+ buffers/cache: 
Swap: 3112956 0 


free 


cached 
111048 


shared buffers 
0 12 


ま dd 1f-/dev/zero of-foo bs-4096 count-40960 品 =ー 「foo」 フ ァイル を 作成 


# free 口 ペー メモ リー の 状態 を 確認 
tota1 used 
Mem: 1546024 646584 
-/+ buffers/cache: 
Swap: 3112956 


図 4 キャ ッシュ の 利用 状況 の 確認 


free 
899440 0 48 
1194992 


0 3112956 
キャ ッシュ の 使用 量 が 増え て いる 


shared buffers cached 


295504 


ファ イル |/O (ファ イル の 入出 力 ) だ け で も 減る こと が ある 。 


で きま す 。 フ ァイル が コマ ンド 、 プ 
ログ ラム や スク リプ ト で あれ ば 、 実 
行 も 可能 で す 

これ ら の 処理 を 実施 する 際 、 フ ァ 
イル シス テム は プロ ッ ク レ イヤ ー に 
1/O 要求 を 発行 し ます 。 そし て 、 プ 
ロッ クレ イヤ ー が その 要求 を 適切 に 
処理 し ます 

ファ イル を 書き 込む 場合 、 デ ィ レ 
クト リー 構成 、 ア クセ モス 権 や ヤ ア クセ 
ス 時 刻 な どの 属性 情報 は 、 フ ァイル 
シス テム で 定め られ た 形式 で ファ イ 
ル の 中 身 と 一 緒 に スト レー ジ に 保存 
され ます 


(4) デー タ の キャ ッシュ 
ハー ド デ ィ スク は 、 メ モリ ー や ネ 
ットワーク 1/O に 比べ る と 遅い デパ 
イス で す 。 そ こ で 、Linux の ファ イル 
シス テム で は 、 空 き メ モリ ー を 「 キ 
ャ ッシュ 」 と し て 使用 し 、 読 み 書き 
済み の デー タ ヤ 先読み し た デー タ を 
そこ に 保持 し ます 。 こ の キャ ッシュ 
に つい て は Part2 で 解説 し まし た 。 
この た め 、「free」 コマ ンド や 「/ 


proc/meminfo|] ファ イル が 表示 
る 空き メモ リー の 量 ([free」 と し 
て 示す 値 ) は 、 フ ァイル 1I/0O (ファ 
イル の 入出 力 ) の 発生 に よっ て も 減 
る こと が あり ます *1 ( 図 4) 


ファ イル シス テム の 構造 

Linux の ファ イル シス テム は 、 
「VFS] (仮想 ファ イル シス テム ) と 
個別 の ファ イル シス テム と いう 2 つ 
の レイ ヤー ( 層 ) か ら な り ま す 。 
nux に は 、 昨 


の ファ イル シス テム と の 互換 性 、 他 
0S と の 互換 性 、 メ ディ ア の 標準 形 


【AppArmor】 Ubuntu や openSUSE な ど 
が 標準 採用 する 強制 アク セス 制御 機能 で 
す 。 プ ロフ ァイル に 定義 きれ た ルー ル に 従っ 
て 、 ア プリ ケー ショ ン ご と に 制限 し ます 。 
【SELinux】 Fedora や CentOS な ど が 標 
準 採用 する 強制 アク セス 機能 で す 。 フ ァイル 
や プロ セス ご と に 制限 で きま す 。 SELinux は 、 
Linux カ ー ネ ル に 実装 され て いま す 。 


* キ 1 使用 量 が 増え て も 、 キ ャ ッシュ を 解放 し 


て メモ リー を 回 収 す れ ば 、 空 き メモ リー と し て 利 
用 で きま す 。 


-% | * 33 カー ネル の 仕組 み 
Ei 


$ wc 


-] /proc/f11esystems ロ 
ファ イル 内 の 行 数 を 数 える 
/proc/fi1esystems 
対応 する ファ イル シス テム 数 が 分 か る 
* cat /proc/f11esystems ロ 
_ フ ァイル 内 を 表示 


nodev 
nodev 
nodev 
nodev 
nodev 
nodev 
nodev 
nodev 
nodev 
(中 略 ) 


図 5 使用 で きる ファ イル シス テム の 確認 
Ubuntu 14.04 LTS で の 例 。 
式 、 一 時 ファ イル や 高圧 縮 な 
定 用 途 と いっ た 幅広 い 要 
ら る よう 、 さ ま ぎ ざま な フ 
ム が 用 意 き れ て いま す 
1 た 「proc」 「sysfs」 
「cgroupfs」 な どの シス テム イン タフ 
ェ ー ス も 、 カ ー ネ ル 内 で は ファ イル 
シス テム と し て 実装 さ れ て いま す 


どの 特 
に 応じ 
ァイル シ 


ファ イル シス テム の 違い を 吸収 

今 利 用 し て いる カー ネル で どん な 
ファ イル シス テム が 使え る の か は 「/ 
Soc2e7M8emdd ファ イル 内 を 見 
る と 分 か り ま す 。 図 5 は 、Ubuntu 
14.04 LTS で の 例 で す 。 こ の カー ネ 
ル で は 、ecxt3、ext4、vfat な どの 新 
旧 フ ァイル シス テム 、sysfs、proc 
な どの シス テム イン タフ ェ ー ス 用 、 
"を 含む 26 種 類 の ファ イル 
シス テム に 対応 し て いる こと が 分 か 
り ま す 。 

VFES は 、 こ れ ら の ファ イル シス テ 


VFS 抽 ext4 


OO 


| fe operatons 指 造 体 | トコ 


ext4_file_operations 構 造 体 


inode_operations 構 造 体 


1 
| ニー ト ext_file_inode_operations 造 体 


ext4. 


dir_inode_operations 構 造 体 


address_space_operations 構 造 体 


に 


ext4_da_aops 構 造 体 


* 構 造 体 の 中 に は アク セス に 必要 な 
イン タフ ェ ー ス 関数 が 格納 され て いる 


ext4_joumalled_aops 構 造 体 


図 6 ファ イル シス テム の イン タフ ェ ー ス と 実装 
ファ イル 操作 の [file_operations」、i ノ ー ド 操作 の 「inode_operations」 な どの 構造 価 内 の イン タフ ェ ー ス 関数 


を 使っ て アク セス する 。 


ム の 違い を 意識 する こと 
よう に し ます 。/boot デ ィ レ クト リ 
ー は ext4、/home デ ィ レ クト リー 
ょ XFS な ど と 、 異 な る ファ イル シス 
テム を 混在 きせ る こと も で きま す 
どの ファ イル に アク セス する 場合 で 
も 、 フ ァイル シス テム の 違い を 意識 
し て コマ ンド を 変え た り 、 特 別 な オ 
プシ ョ ン を 指定 し た りす る 必要 は あ 


な く 使え る 


+ 


り ま せん 
個々 の ファ イル シス テム を 認識 さ 
せる ドラ イ バ は 、VFS へ の プラ グイ 


ン に な っ て いま す 。Linux ディ スト 
リ ビ ュ ーション の カー ネル で は 、 動 
的 に 読み 込ん だ り 取 り 外 し 
る カー ネル モジ ュー ル (カー ネル の 
アド オン ソフ ト ) と し て 提供 され て 
いま す 


例 フ ァイル シス テム 共通 の 関数 
ファ イル シス テム と VFS 間 の アク 
セス に は 、 フ ァイル 操作 の [fle_ope 
rations、i ノ ー ド * 操 作 の 「inode_op 
erations] と いっ た 構造 体 ま 内 の イン 
タフ ェ ー ス 関数 が 使わ れ ま す 。 個 々 
の ファ イル シス テム に は 、 こ れ ら を 
実装 し た 構造 体 が 用 意 さ れ て いま す 


( 図 6)。 こ の 構造 体 の お か げ で 、 フ 
ァイル シス テム の 違い を 吸収 する だ 


け で な く 、 フ ァイル や ディ レク トリ 
ー な どの ファ イル 種別 や 、 マ ウン ト 


表 1 Linuix フ ァイル シス テム の 分 類 
古典 ext2 
ジャ ー ナ リン グ ex3、ex4、XFS 


ログ スト ラク チャ ー ド nilfs2. 
COW (Copy on Write) Btrfs 


オプ ショ ン が 六 っ て も 同じ よう に ア 
クセ モス で きる 環境 が 提供 され ます 


全 フ ァイル シス テム の 種類 

Linux の ファ イル シス テム は 、 表 
1 の よう に 分 類 で きま す 
イン タフ ェ ー ス や 、 一 時 ファ イル 用 


シス テム 


な どの 特定 用 途 の ファ イル シス テム 
、 除 いて あり ます 
- 邊 前 な フケ イル シス テム の 


ext2 は 、 初 期 の UNIX で 標準 採用 
きれ て いた 「UFSI| (Unix File Sy 
stem) な ど を 参考 に し て 作ら れ ま し 
た 。 フ ァイル シス テム と し て の 基本 
的 な 機能 が 搭載 され て いま す 

ジャ ー ナ リン グフ ァイル シス テム 
は 、 変 更 内 容 を 「 ジ ャ ー ナ ル 」 と い 
う 領 域 に 記録 し て 耐 障害 性 を 高め 
て いま す 。ext2 で は 、 デ ィ ス ク へ の 
書き 込み が 不 完全 に 終わ っ た と き 、 
「fRSck」 コマ ンド で ファ イル シス テム 
全体 を スキ ャ ン し て 不 整 合 が な いか 
を 調べ ます 。 ジ ャ ー ナ リン グフ ァ イ 
ル シ ス テム で は 、 この 処理 が 不要 に 
な り ま す 


ログ スト ラク チャ ー ド ファ イル シ 
ステ ム で は 、 ロ グ を ファ イル に 書き 
出す よう に 、 作成 や 更新 する ファ イ 


ル を 属性 情報 や 管理 情報 と 一 緒 に 
ディ スク 内 の 連続 し た 領域 に 追記 し 
ます 。 フ ァイル の 情報 が まとまっ て 
書き 込ま れ て いる の で 、 不 完全 な 書 
き 込み が 分 か り ま す 。 ま た . 不 完全 
な 書き 込み が ファ イル シス テム 内 の 
他 の 領域 に 影響 を 与え る こと も あり 
ませ ん 

COW (Copy-On-Write) ファ イ 
ル シ ス テム は 、 デ ィ ス ク 上 の デー タ 
や 属性 情報 を 上 書き せ ず 、 上 書き す 
る 部 分 は 複製 し て 更新 し ます 。 ジ ャ 
ー ナ リン グ や ログ スト ラク チャ ー ド 
と 同様 の 利点 が ある だ け で な く 、 更 
新 前 の デー タ が 残っ て いる の で 高速 
な スナ ッ プ ショ ッ ト * 機 能 な ど を 提 
供 で きま す 


ブロ ッ ク レ イヤ ー 

プロ ッ ク レ イヤ ー で は 、 デ ィ ス 
ク に 対す る 1I/O 要 求 を ファ イル シス 
テム な どか ら 受 け 取 り 、1/O の 性 能 
を 高め る よう に 書き 込む デー タ を 整 
えて か ら デ バイ ス ド ラ イ バ に 渡し ま 
す 。 キ ャ ッシュ の と ころ で も 述べ た 
よう に 、 デ ィ ス ク は メモ リー や ネッ 
トワ ー ク に 比べ る と 、 非常 に 遅い デ 
バイ ス で す 

そこ で 。 プ ロッ クレ イヤ ー に は 
[IO スケ ジュ ー ラ ー」 と 呼ば れる 機 
能 が あり ます 


全 |/O ス ケ ジ ュ ー ラ ー 


1I/0 ス ケ ジ ュ ー ラ ー で は 1 度 の 1/O 


3 
間 


5 ノー > Rh で = と SNs 較 -- 8 


ファ イル シス デム と スロ ッ ク レ イヤ ー 


\1054 #1055 まき 1054 一 ま 1055 
2 回 の I/O 〇 1 回 の I!/O 


| き 1054 | #1055 | 


ーー 
図 7 1/O 要 求 の マー ジ ・ 並 べ 替 え 


is 二 ア 
まき 1054 一 #1055 | | *2010 


並べ 替え 


この 処理 に CPU 時 間 を 使っ て も 、 遅 い !/O が 速く な れ ば 、 か けた 時 間 に 見 合う 。 


表 2 |!/O ス ケ ジ ュ ー ラ ー 


noop [dead11ne] cfq 


図 8 |!/O ス ケ ジ ュ ー ラ ー の 確認 


$ cat /sys/block/sda/queue/scheduler 器 < 


Noop、Deadline、CFQ が 使え る 。 
使用 中 の |/ の 〇 スケジュ ー ラ ー は Deadline 


CFO (Completely Fair Queuing) プロ セス に ディ スク 芝 域 を 公平 に 割り 当て る 
Deadline 
Noop 


1/O 要 求 発行 か ら デ バイス に よる 1/O 開 始ま で の 上 限 時 間 を 守る 
簡単 な 並べ 替え し か し な い 


1/0 ス ケ ジ ュ ー ラ ー を 確認 


「/sys/block/sda/queue/schedulerl フ ァイル に 書き 込ま れ て いる 。 


が 複数 に 分 か れ て いた 場合 、 マ 


ー ジ し た り 並 べ 替 えた り し ます ( 図 
7)。 こ の 処理 に CPU 時 間 を 使っ て 


も 、 遅い 1/O が 速く な れ ば 、 
時 間 に 見 合う か ら で す 
I/O ス ケ ジ ュ ー ラ ー に は 、 表 2 の 
3 つが あり ます 。Partl で も 紹介 し た 
ま 2 に の な 1/O ス ケ 
え 、 現在 どの 1/O ス ケ ジ 
ー が 使用 され て いる か は 、 
fs から 確 認 で きま す ( 図 8)。 ど の 1/ 
0 スケ ジュ ー ラ ー が どの よう な 1/O 
負荷 に 適し て いる の か は 定説 が あり 
ませ ん 。 ち な み に 、Ubuntu 13.10 は 
「Deaqline」、Fedora 19 は 「CFQ] 
を 標準 で 採用 し て いま す 


か けた 


ジュ ー 


ん 


【I ソ ー ド 】 ファ イル や ディ レク トリ ー に 関す る 各種 情報 を 格納 する た め の も の また は そ 


マ ル チ キ ュー 対応 スケ ジュ ー ラ ー 

ディ スク MO は 遅い と 先ほど 述 
べ ま し た が 、PCI Express * 直 千 の 
SSD* を 使え ば 、10 ギ が ビッ トイ ー 
サ ネ ッ ト に 近い 1/O 常 域 を 持つ ディ 
スク 装置 を 実現 で きる よう に な - 
きま し た 。 現在 の 1/0 ス ケ ジ ュ ー ラ 
ー で は 、 マ ー ジ や 並べ 替え られ た 1/ 
0 要求 は デバ イス ご と に 1 つの キュ 
ー (パッ ファ ー) に 送ら れ て デパ 
イス ドラ イ バ を 経由 し て 処理 され ま 
す 。PCI Express 直 結 の SSD の よう 
な 広い 1/0 常 域 を 持つ デパ イス の 場 
合 、 こ の キュ ー が ネッ ク と な り 、 デ 
バイ ス 本 来 の 性 能 を 生か し きれ な い 
こと が あり ます 


デー タ 構 造 で 


す 。 フ ァイル の 場合 、 長 さ 、 所 有 者 や 所 有 グ ルー プ の ID、 フ ァイル シス テム 内 で 識別 の た め に 付与 する 
ソード 番 号 、 ア クセ ス 権 、 更 新 日 時 、 使 用 し て いる ディ スク の ブロ ッ ク 情 報 な ど が 格納 され て いま す 。 

【 構 造 体 】 配列 を 拡張 し た も の で 、 任 意 の 情報 (関数 を 含む ) を さま ざま な 形式 で 保存 で きま す 。 

【 ス ナッ プシ ョ ッ ト 】 過去 の ある 時 点 の 状態 に ハー ド デ ィ ス ク の 内 容 を 戻す 仕組 み で す 。 更 新 前 の デ 
ー タ が 上 書き され ず に 残っ て いる の で 、 そ れ を 活用 し ます 。 

【PCI Express】 PC の 内 部 に ある 拡張 カー ド 用 の イン タフ ェ ー ス で す 。 現在 の 主流 は PCI Express 
3.0 で あり 、 実 効 デ ー タ 転送 速度 は 双方 向 で 2G … 64G バ イト / 秒 と 高速 で す 。 

【SSD】 Solid State Drive の 路 で 、 フ ラッ シュ メモ リー を 使っ た スト レー ジ で す 。HDD に 比べ て 、 高 


速 に アク セス で きる 製品 が 数 多く あり ます 。 


meta-data=/dev/sdb1 
blks 


realtime 
図 9 XFS の メタ 情報 


-none 


XFS の ファ イル シス テム の 作成 時 に 出力 され る 。 


ネッ トワ ー ク と 同様 に 、 マ ル チ キ 
ュー 化す る た め の 1/O ス ケ ジ ュ ー ラ テラ 
ー の 開発 が 、 コ ミュ ニテ ィ ー で 進め 
られ て いま す 。 最近 で は 「blkio-mq」 
と いう マル チキ ューI/O ス ケ 
ラー が 登場 し て いま す 


層 注目 され る 人 | 
XFS 
現在 主流 の ファ イル シス テム は 、 


ext4 で す が 、XFS が 注目 きれ つつ あ 
り ま す 。XFS は 古く か ら あ り ま す 


ジュ ー 


HHEL7 で 採用 され る XFS 

XFS の 歴史 は 訓 く 、 開 発 が 始ま っ 
た の は 、 現 在 主 流 と な っ て いる ext4 
より も 昔 で す 。1990 年 代 前 半 に 
licon Graphics International 社 
社 の UNIX 系 OS 「IRIX」 向け に 開 
発し まし た 。 そ の 後 Linux に 移植 さ 
れ 、2002 年 頃 に カー ネル 24 に 取り 
込ま れ ま し た 

現在 で は 多く の Linux デ ィ ス ト 
リ ビ ュ ーション で 利用 で きる ほか 、 
2014 年 6 月 に リリ ー ス れ た Red Hat 
Enterprise Linux 7 (RHEL7) で 
は 、 標 準 の ファ イル シス テム が ext4 
か ら XFS に 変更 きれ て いま す 。 ま 
た 、 家 庭 用 DVD/Blurray レコ ー ダ 
ー の 中 に は 、 内 蔵 HDD の ファ イル 
シス テム に XFS を 採用 し て いる 製 
品 も あり ます 

XFS が 採用 され る 1 番 の 理由 は 、 
大 容量 や 、 大 量 フ ァイル の 扱い に 適 


同 


fsize-256 


ご sectsz=512 attr=2, proj1d32bit=0 
data = bsize=4096 blocks=999998, 1maxpct=25 
= sun1t-0 swidth-0 b]ks 
naming =version 2 bsize=4096 ascii-ci=0 
1og =fnternal 1og bs1ize=4096 blocks=2560, vers1on=2 


に sectsz=512 
extsz=4096 


agcount=4, agsize=250000 


sun1t=0 blks。 1azy-count=1 
blocks=0, rtextents=0 


し て いる こと で す 。 近 年 Linux シス 
テム で 扱わ れる デー タ は 大 規模 化 が 
進ん で いま す 

エン ター プラ イズ 領域 で は P バ イ 
ト 、 個人 用 途 で も エバ イト の ファ イ 
ル シ ス テム サイ ズ が 当たり 前 に な り 
つつ あり ます 。 こ の 流れ が 進む と 、 
近い 持 来 に 従来 の ex(4 だ と ユー ザ 
られ な い ケ ー ス が 増 


えて きま す *3 

ex(4 の 上 限 が 最大 1E (エク サ ) バ 
イト まで の ボリ ュー ム (パー ティ シ 
ョ ン ) サイ ズ と 最大 16T バ イト まで 
の ファ イル サイ ズ で ある の に 対し 、 
XFS は 理論 上 、 最 大 18E バ イト の ボ 


リュ ー ム サイ ズ と 硫 大 9E バ イ + の 
ファ イル サイ ズ ま で 扱え ます 
XFS の 内 部 構造 


次 に ファ イル シス テム を 操作 し な 
が ら 、 その 内 部 構造 を 見 て み ま し ょ 
う 。 こ こ で は XFS の 機能 の うち 、 エ 
クス テン トト 方 式 、 ア ロケ ーション グ 
ルー プ 、 そし て 居 延 アロ ケー ショ ン 
を 説明 し ます 。 実行 環境 は Ubuntu 
14.04 LTS で す 

まず は 、XFS を 扱う た め に 必要 な 
パッ ケー ジ を 導入 し ます 。 XFS の 管 
理 ツ ー ル 群 は 、 多 く の デ ィ ス トリ ビ 
ュー ショ ン で 「xfsprogs」 と 「xfsdu 


mp」 と いう 2 つの パッ ケー 
提供 され ます 


5 sudo apt-get install xfspro 


isize i ノ ー ド サイ ズ (ファ イル に 対す 
る 必 性 情報 を 格 約 で きる 容量 ) 。 
図 9 で は 256 バ イト (最小 値 ) 

agcount、 アロ ケー ショ ング ルー プ (AG) 


agsize 。 と 呼ば れる 領域 が ファ イル シス テ 
ム 内 に 存在 する 数 と 、AG 当 た り 
の ブロ ッ ク 数 

sectss "ファ イル シス テム の セク ター サ 
イズ 。 セ クタ ー は HDD に デー タ 
を 記録 する 最小 単位 

bsize、 ブロ ッ ク の サイ ズ と ブロ ッ ク 数 。 

blocks 。 図 9 で は 、4096 バ イト の ブロ ッ 
ク が 999998 個 


gs xfsdump ロ 


次 に ファ イル シス テム を 作成 し 6 
す 。「/dev/sdb1] パー ティ シ 
S の ファ イル シス テム を 作る 場 
合 に は 次 の よう に 実行 し ます 


* sudo mkfs.xfs /dev/sdb1 避 


XFS の ファ イル シス テム を 作成 
する と 、 図 9 の よう な ファ イル シス 
テム の メタ 情報 が 表示 され ます 。 各 
メタ 情報 の 内 容 は 表 3 の 通り で す 
「agcount| と 「agsize」 が 示す アロ 
ケー ショ ング ルー プ (AG) は 、 デ 
ィ ス ク へ の 同時 アク セス の 性能 向 
上 を 目的 と し た 機能 で す 。 各 AG が 
独立 し て 空き 領域 と ノード を 管理 
する こと で 、 身 ァイル シス 
が 複数 の 物理 ディ スク を また か 

合 に 性 能 が 向上 し ます 

ファ イル シス テム を 「/xfs| ディ 
レク トリ ー に マウ ント し て 、8M バ 
イト の ファ イル を 作成 し ます 


s* sudo mkdir -p /xfs ロ 
* sudo mount /dev/sdb1 /xfs 器 
3 sudo dd 1f=/dev/urandom of=/ 
xfs/nfkke1 bs-1M count-8 器 


作成 し た ファ イル の i ノ ー ド を 
認 し て か ら 、 フ ァイル シス テム を ア 
ンマ ウン ト し 、「xfs_db] コマ ンド 


xfs_db> fnode 131 品 <] 
xfs_db> p 口 ペーi ノ ソー ド 情 報 を 出力 
(中 略 ) 

core.uid =0 

core.91d = 0 

(中 早 ) 

core.S1ze = 8388608 
core.nblocks = 2048 
core.exts1ze = 0 
core.nextents = 1 
(以下 、 省 略 ) 


図 10 XFS 内 の ファ イル の i ノ ー ド 情報 
ファ イル に 関す る さま ざま な 情報 が 表示 され る 。 


を 実行 し ます 。xfs_db は XFS を デ 
パッ グ す る た め の コ マン ドド で す 


*1s -1 7/xfs 器 

131 nikke1 

$ sudo umount /xfs 器 

$ sudo xfs_db /dev/sdb1 ロ 


xfs_ db プロンプト が 表示 され た 
ら 、 先 ほど 確認 し た i ノ ー ド の 情報 
を 出力 し て み ま す ( 図 10)。 「core. 
nblocks = 2048| は ファ イル が 格納 
され て で いる プロ ッ ク 数 を 表し て いま 
す 。 フ ァイル シス テム の プロ ッ ク サ 
イズ (4096 パ イト ) を か ける と 先 ほ 
ど 作 成 し た ファ イル の サイ ズ (8 メ 
ガバ イト ) に 一 致し ます 

「core.nextents = 1] は 、 フ ァイル 
を 格納 する エク ステ ント が 1 つ で あ 
る こと を 示し て いま す 。 エ クス テン 
ト は 連続 し た 複数 の プロ ッ ク を 1 つ 
の 単位 と し て まとめ た も の で す ( 図 
11)。XFS や ext4 で は 、 こ の エク ス 
テン ト の 単位 で デー タ を 管理 し て い 
ます 。 

これ に より 格納 する デー タ が 大 き 
く な っ て も 、 プ ロッ タク 情 報 の 管理 に 
必要 と する ディ スク スペ ー ス を 抑え 
る こと が で きま す 。 ま た ブロック 番 
号 管理 の た め の オ ー バ パー ヘッ ド も 減 
る の で 、 大 き な フ ァイル の 読み 込み 
や 削除 を 高速 に 行え ます -。 

XFS で は 、 デ ー タ を 実際 に ディ ス 


大 きい デー タ 
が 分 割 さ れ 、 
個々 に 妊 き 込 
み 要 求 を 発生 分 割 さ れ た デー 
タ ご と に ブロ ッ 
ク を 割り 当て る 
の で 、 断 片 化 が 


発生 し や すい 


1 番目 の エク ステ ント 情報 


ファ イル シス テム と フロ ッ ク レ イヤ ー 


2 番目 の エク ステ ント 情報 


時 デー タ を 格納 し て いる ブロ ッ ク 


図 11 エク ステ ント 方 式 
いく つか の ブロ ッ ク を まとめ て 管理 で きる 。 


ディ スク に 書き 
込む まで ブロ ッ 
ク を 決定 し な い 
の で 、 連 続 し た 
領域 を 割り 当て 
や すい 


遅延 アロ ケー ショ ン で は な い 場 合 


図 12 キャ ッシュ か ら デ ィ ス ク へ の 青き 込み 


連続 し た 空き 領域 に デー タク を 格納 し や すく な る 。 


ク に 書き 込む な まで 、 デ ー タ を 格納 す 
る (割り 当て る ) プロ ッ ク の 決定 を 
遅らせ ます 。 こ れ を 「 遅 延 ア ロケ ー 
ショ ン 」 と 呼び ます 。 こ の 機能 に よ 
っ て 、 ディ スク 上 の ファ イル の 断片 
化 が 起こ り に くく な っ て いま す 
Part2 で 説明 し た よう に 、 書 き 込 
み は 同 期 を 指定 し な い 限り 、 キ ャ ッ 
シュ を 使っ て 非同期 に 実行 され ま 
す 。 遅延 プア ロケ ーション で は 、 デー 


遅延 プア ロケ ーション の 場合 


タ を メモ リー 上 に キャ ッシュ した 自 
階 で は 、 格納 する プロ ッ ク を 決定 し 
ませ ん 。 書き込み に 必要 な プロ ッ ク 
数 を 予約 する だ け で す 

その 後 、 キ ャ ッシュ 上 の デー タ を 
ディ スク に フラ ッシュ する と き 〔 実 
際 に 格納 する プロ ッ ク を 決定 し 、 デ 
ィ ス ク に 書き 込み ます ( 図 12)。 こ 
れ に よっ て 、 連続 し た 空き 領域 に デ 
ー タ を 格納 し や すく な り ま す 。 


【 チ ェ ッ ク サ ム 】 デー タ の 誤り を 検出 する た め の 待 号 で す 。 
【RAID】 Redundant Arays of Inexpensive/Independent Disks の 路 。 複 数 の HDD を 組み 合 
わせ て 、 性 能 や 可用性 を 向上 させ る 技術 で す 。RAIDO (スト ライ ビング) や RAID1 (ミラ ー リ ング ) な 


ど が あり ます 。 


* キ 3 1980 年 代 の UFS ペ ー ス の 設計 を 引き ずっ て いる こと に 起因 し て いま す 。T バ イト の ファ イル サ 
イズ や 、 数 千 万 単位 の ファ イル 数 を 扱っ た と き に 、 十 分 に 性 能 を 発揮 で きま せん 。 
*4 64 ビ ピッ ト OS 環 境 の 場合 で す 。 た だ し XFS の 場合 、 各 ディ スト リ ビ ュ ーション に よっ て 保証 で きる 


上 限 サイ ズ は 理 議 値 より も 下回る こと が あり ます 。 


Part4 で は 、TCP/IP 通 信 に お ける Linux の ネッ トワーク 機能 を 解説 し ます 。 
ネッ トワ ー ク は 、Web の ブラ ウジ ング や 電子 メー ル な ど 、 他 の コン ピュ ー タ と の 通信 に 欠か せな い 機 能 で す 。 


Linux カー ネル の ネッ トワ リー ク 機 
能 は 次 の 4 つ に 大 別 で きま す ( 図 1) 
(1) ソケット イン タフ ェ ー ス 
(2) プロ トコ ルス タッ ク 
(3) ネッ トワ ー ク デバ イス 関連 の 処理 
(4) 上 記 以 外 の 付加 的 な 機能 

ソケット イン タフ ェ ー ス は 「 ソ ケ 

ッ ト *| と シス テム コー ル を 通じ て 
間 (アプ リケーション ) 
と カー ネ 生か 
を 実現 する 機能 で す 。 ソ ケッ ト 
は 通信 こと こ 生 成 き まれ ます 。 そ の 生 
成 時 に 使用 する プロ トコ ル * を 指定 
で きま す 。 こ れ に より さま ざま な プ 
ロト コル を 統一 的 な イン タフ ェ ー ス 
で 扱う こと が 可能 に な り ま す 
プロ トコ ルス タッ ク は 「TCP] 


8 主 証 | ユー ザー 
ショ ン 空間 


プロ トコ ル 
スタ ッ ク 
(TCP/IP な ど ) 


ネッ トワ ー ク 
デバ イス 
関連 処理 


「UDP」 TIP] TICMPI TARP」 な ど 
の 各種 プロ トコ ル を 処理 する た め の 
機能 と し て 実装 され て いま す 。 ソ ケ 
ッ ト に よ 受信 され る パケ ッ ト * 
は 、 プ ロト コル スタ ッ ク を 経由 し て 
「 ネ ットワーク デバ イス 」 (ネッ トワ 
ー ク イン タフ ェ ー ス カー ド な ど ) に 
受け 渡 き れ ま す 

Linux に は 、 異 な る メー カー や 異 
な る 製品 の ネッ トワ ー ク デバ イス を 
サポ ー ト する た め に 多く の デパ イス 
ドラ イ バ が 含ま れ て いま す 。Linux 
は 「 ネ ッ ト デ パイ ス 」 と いう 仮想 的 
な デバ イス を 通じ て 個々 の デバ イス 
を 抽象 化し て お り 、 多 様 な デバ イス 
を 統一 的 に 扱う こと が で きま す 

付加 機能 に は 、 フ ァ イ ア ウォ ー ル 


0 の 1 の 75270 コー 
ス 、 ブ プロ トコ ルス タッ ク 、 ネ ッ 
ト デ バ イス 、netfilter、 コ ネ 
クシ ョ ン 、 ル ー テ ィング 、 バ ケ 
ッ ト ス ケ ジ ュ ー ラ ー、 3 ウエ 
イハ ンド シェ イク 、 ル ー 
ティ ング テー ブル 、FIB、 ト ラ 
イ 木 、 NAPI、 bufferbloat 


(パケ ッ ト フ ィ ル タリ ング ) や ネッ 
トワ ー ク アド レス 変換 (NAT) な 
ど が あり ます 。 こ れ ら は 「netfilter」 
と 呼ば れる 機能 に よっ て 実現 され て 
いま す 。 こ の netfilter は IP な どの プ 
ロト コル か ら 利 用 で きま す 


バケ ッ ト 送 受信 時 の 処理 

それ で は 、 パ ケッ ト 送 受信 時 の 処 
理 を 例 に 、TCP と IP (IPv4) の プ 
ロト コル スタ ッ ク 、netfilter、 ネ ッ 
ト デ バ イス に 対象 を 絞っ て 、 ど の よ 
うな 処理 が 行わ れる か を 説明 し て い 
きま し ょ う 。 図 2 に は 、 パ ケッ ト の 
送受 信 に 伴っ て 各 機 能 間 で どの よ 
うな や り 取り が 実施 きれ て いる か を 
まや め ま せ た 


| senao 


アプ リケーション recv() 


tcp_v4_rcV() 


jp_queue_xmit() 


IP jp_rcV() 


dev_queue_xmit) 


ネッ ト デ バ イス __netif_receive_skb() 


ネッ トワ ー ク ハー ド 
デバ イス ウエ ア 
図 1 Linux の ネッ トワ ー ク 機能 
4 つの 機能 に 大 別 で きる 。 


am 220540 
| ネッ トワ ー ク デバ イス 
バケ ッ ト 送 信 有 


図 2 TCP/IP で の パケ ッ ト 送 受信 の 流れ 


民 り 合う 層 は 、 そ れ ぞ れ の 送受 信 関 数 を 呼び 出す こと で パケ ッ ト を や り 取 りす る 。 


先 に 述べ た 通り 、 ア プリ ケー ショ 
ン は デー タ 送 受信 の た め に ソケット 
を 使用 し ます 。 ソ ケッ ト は socket() 
シス テム コー ル で 作成 で きま す 。 生 
成 時 の 返り 値 と し て ソケット を 指し 
示す 番号 を 得 ます 。TCP は 、 通 信 
相手 と 事前 に 「 コ ネ ク シ ョ ン *」 を 
確立 し て 1 対 1 で 通信 する プロ トコ 
ル で す 。 コ ネ ク シ ョ ン 確 立 時 の 操作 
に は 、 返 り 値 の ソケット 番号 を 引数 
と し て connect() シス テム コー ル な 
ど が 使用 され ます 。 

コネ クシ ョ ン が 確立 し た 後 は 
send () や recv () な どの シス テム コ 
ー ル を 用 いて 、 カ ー ネ ル と アプ ブリ ケ 
ーション 間 で 通信 デー タ の 受け 渡し 
が 行わ れ ま す 。 ア プリ ケー ショ ン が 
デー タ を 送信 する 場合 、TCP ソ ケッ 
ト を 使用 し て send() を 呼び 出し ま 
す 。 す る と 、 カ ー ネ ル 内 部 で は TCP 
で 送信 する た め の 関 数 が 呼び 出 き れ 
ます 。 こ の 関数 は TCP 固有 の 処理 
(送信 量 の 調整 な ど ) を 実行 し つつ 、 

下位 層 で ある IP の 送信 関数 を 呼び 
出し ます 。 

IP 層 で は 「 ル ー テ ィング 」 に よっ 
て 出力 先 の ネッ トワ ー ク デバ イス を 
決定 し 、 ネ ッ ト デ バイス に バ パケット 
を 渡し ます 。 ま た 、 ルー ティ ング の 
前 後 で netfilter に パケ ッ ト を 渡す こ 
と が で きる よう に な っ て いま す . 

ネッ ト デ パ イス は 「 パ ケッ トス ケ 
ジュ ー ラ ー」 を 保持 し て お り 、 パケ 
ッ ト の 送信 量 や 順序 を 制御 で きま 
す 。 そ の 後 は 利用 し て いる ネッ トワ 
ー ク デバ イス に 対応 し た デバ イス ド 
ライ バ に パケ ッ ト が 渡さ きれ ます 。 デ 


TCP/IP ネ ットワーク 


Ez0』 
ソケット 作成 ペー 一 一 #socket() 


EE 
に > bind() 
2 
1 
H 
H 


図 3 TCP コネ クシ ョ ン 確 立 に お ける Linux の 処理 


パイ ス ド ラ イ バ が その ハー ドウ エア 
を 制御 する こと で パケ ッ ト が 送信 き 
れ ま す - 

受信 処理 は この 逆 の 流れ と な り 、 
デパ イス ドラ イ バ 、 ネ ッ ト デ バイ ス 、 
IP、TCP の 順に 受信 パケ ッ ト が 渡さ 
れ 、 最終 的 に アプ リケーション か ら 
recv() シ ステ ムコ ー ル で パケ ッ ト 内 
の デー タ を 読み 出す こと が で きる 状 
態 に な り ま す 


層 パケ ッ ト 送 受信 
の 詳細 


各 機 能 問 で の や り 取 り と 各 機能 
内 の 処理 の 概要 を 解説 し まし た 。 次 
に 、 各 機能 内 で の 動作 を 詳し く 説明 
し まし ょ う 


TCP に お ける 動作 

前 述 し た よう に TCP ソケット で 通 
信 す る に は 、 事 前 に コネ クシ ョ ン を 確 
立 する 必要 が あり ます 。 こ の 処理 は 
「3 ウ ェ イ ハン ド シ ェ イク 」 と 呼ば れ 
る 手順 に よっ て 実現 きれ て いま す 


まず 、 コ ネ ク シ ョ ン を 確立 し よう 
と する ホス ト (クラ イア ント ) は 
「SYN」 パ ケッ ト を 送信 し ます 。 これ 
を 受信 し た 対向 ホス ト (サー バー) 
は 「SYN/ACK」 パケ ッ ト を 返し ま 
す 。 最 後に クラ イア ント が 「ACK] 
パケ ッ ト を 返す こと で 、 コ ネ ク シ ョ 
ン が 確立 きれ ます 

アプ リケーション 側 の 動き で 見 る 
と 、 ク ライ アン ト は connect()、 サ 
ー バ ー は bind ()、HiSten ()、accept 
() シ ステ ムコ ー ル を 使っ て コネ クシ 
ョ ン を 確立 し ます 

図 3 に 具体 的 な 動作 を 示し まし 
た 。 こ れ を 使っ て 、 ク ライ アン ト と 


【 ソ ケッ ト 】 通信 する 相手 や プロ トコ ル な ど 
の 情報 を ひと まとめ に し た も の 。 

【 プ ロト コル 】 ネッ トワ ー ク で 通信 する た め の 
規則 や 手順 を 定め た も の 。TCP や UDP、 IP 
な ど が あり ます 。 

【 バ ケット 】 送信 デー タ に 究 先 や 送信 元 の 
制御 情報 な ど を 付加 し て 通信 で きる 状態 に し 
た も の 。 

【 コ ネ ク シ ョ ン 】 目的 の 相手 と 通信 する た め 
の 議 理 的 な 回 線 で す 。 


四 カー ネル の 仕組 み 


ドー 
ー バ ー (172.20.149.151) 
ま -1k 54321 
還 ク ライ アン ト (172.20.20.81 ) 
#for1fn seq 5': do 器 
> nc 172.20.149.151 54321& 器 
> done 器 
一 サー バー の TCP ソケット の 状態 を 確認 


図 4 ソケット の 状態 確認 


サー バー それ ぞ れ の コネ クシ ョ ン 確 
立 時 の 処理 を 詳し く 説 明 し ます 


クラ イア ント 側 で の 処理 

一 socket() シス テム コー ル を 契機 
に 、TCP ソ ケッ ト を 作成 し ます (C- 
①) 

詳 onnect () シス テム コー ル を 契 
機 に 、SYN を 送信 し ます (C-③) 
SYN に 対す る SYN/ACK を 受け 取 
る まで は SYN_SENT 状態 と 呼ば れ 
ます 。 コネクション は まだ 確立 し て 
いま せん が 、SYN/ACK 受 信 時 に 
ソケット を 検索 する た め 、 確 立 済み 
ソケット を 管理 する ハッ シュ テー ブ 
ル * に 登録 し ます (C-③) 

回 SYN に 対す る SYN/ACK を 受信 
する と 、 そ の コネ クシ ョ ン に 対応 す 
る SYN_SENT 状 態 の ソケット を 検 
索 し ます (C-④)。 そ の ソケット を 
確立 済み で ある こと を 示す ESTAB 
LISHED 状 態 に 邊 移し て 、ACK を 
送信 し ます (C 


@ サ ー バ ー 側 で の 処理 

環 socket() シス テム コー ル を 契機 
に 、TCP ソ ケッ ト を 作成 し ます (S_ 
①)。 

町 bind ()、liSten () シス テム コー ル 
を 契機 に 、3 ウ ェ イ ハン ド シ ェ イク の 


# ss -atn "( sport = :54321 )' 器 


State Recv-0 Send-0 Local 
LISTEN 。 2 1 

SYN-RECV 0 9 172.20. 
SYN-RECV 0 0 172.20. 
ESTAB 9 0 172.20. 
ESTAB 0 0 172.20. 
ESTAB 9 9 172.20. 


トン 


Address:Port Peer Address:Port 
*:54321 き 
149.151:54321 172.20.20.81:39001 
149 .151 :54321 172.20.20.81:39002 
149.151:54321 172.20.20.81:38998 
149.151:54321 172.20.20.81:39000 
149.151:54321 172.20.20.81:38999 


Tnc」 コ マン ド を 使用 し て TCP 通信 を 行い 、ss コ マン ド で 状態 を 確認 。 こ こ で は サー バー の ポー ト 番 号 に 
「54321」 を 使用 。 ク ライ アン ト は 並列 に 5 つの コネ クシ ョ ン で サー バー に 接続 。 


SYN を 受信 可能 な 状態 (LISTEN 状 


郊 ) に 大 移し ます ぅ ②)。 以降 、LI 
STEN 状 態 の ソケット を listen ソ ケッ 
ト と 呼び ます 


SYN を 受信 する と 、SYN/ACK を 
送信 し ます (S③)。 ま た 、SYN を 受 
講 し た コネ クシ ョ ン (SYN_RECV 
状態 ) を 管理 する た め 、ACK 待 ち 
用 の ソケット を 作成 し ます 。 ACK 待 
ち ソ ケッ ト を listen ソ ケッ ト ご と の 
ACK 待 ち キ ュー* に 登録 し ます (⑤- 
?) 

ESYN/ACK に 対す る ACK を 受け 
取る と 、 対 応 す る IiStenm ソ ケッ ト を 
検索 し 、ACK 待 ち キ ュー か ら そ の 
接続 に 対応 する ACK 待 ち ソ ケッ ト 
を 検索 し ます (S⑤)。ACK 待 ち 
ソケット が 見 つか れ ば 、 新しく 確立 
し た コネ クシ ョ ン を 管理 する た め の 
ESTABLISHED 状 態 の TCP ソ ケ ッ 
ト を 作成 し ます 。 こ の ソケット は 、 
listenm ソ ケッ ト ご と の accept 待 ち キ 
ュー に 格納 され ます (S⑥)。 ま た 、 
この ソケット は 確立 済み の ソケット 
を 管理 する ハッ シュ テー ブル に る 登 
録 さ きれ ます (S⑦)。 

回 accept() シス テム コー ル が 実行 
され る と 、ESTABLISHED 状態 の 
ソケット が accept 待 ち キ ュー か ら 取 
り 出 きれ ます (S-⑧) 。 


これ で 、TCP コ ネ ク シ ョ ン が 確 
立 し 、 サ ー バ パー と クラ イア ント が 通 
信 で きる よう に な り ま し た 。send 
() シス テム コー ル な ど に より ソ ケ 
ッ ト イ ンタ フェ ー ス を 通じ て アプ 
リケーション か ら 送 信 デ ー タ を 受 
け 取 る と 、TCP は 送信 量 の 調節 
な ど 必 要 な 処理 を 実施 し た 後 、IP 
に パケ ッ ト を 渡し ます 

また 、 パ ケッ ト 受 信 時 に は 、 確立 
済み ソケット を 管理 する ハッ シュ テ 
ー プ ル か ら そ の 接続 に 対応 する ソ ケ 
ッ ト が 検索 され (S-⑨、C-⑥)、 そ 
の ソケット の 受信 キュ ー に 受信 パケ 
ッ ト が 格納 され ます 


ソケット の 状態 を 確認 する 

ソケット の 状態 は 「ss] コマ ンド 
で 確認 で きま す 。 図 4 に が し た [|Sta 
tcl 列 を 見 て くだ きい 。listen ソ ケッ 
ト は |、ACK 待 ち ソ ケッ 
ト は 「SYN-RECV」、 確立 済み の ソ 
ケッ ト は 「ESTAB] と 表示 され ま 
す 。 accept 待 ち キ ュー に 入っ て いる 
コネ クシ ョ ン の 数 は listen ソ ケッ ト 
の 「Recv-Q] の 値 と し て 確認 で き 
ます 

この 例 で は 、 ク ライ アン ト の 接続 
に 対応 する 5 つの ソケット が あり ま 
す 。1 つ は 上 既に accept 待 ち キ ュー か 
ら 取 り 出 きれ た ESTABLISHED 状 
態 の ソケット 、 2 つ は accept 待 ち キ 
こ 入 っ て いる ESTABLISHED 
状態 の ソケット で す 。 

残り 2 つ は 、 ま だ ACK を 受け 取 
っ て いな い SYN_RECV 状態 の ソソ ケ 
ッ ト で す 。 


に 


ethO 。1721700/24 
172.1701 = と 


の 172160232 
宛先 P ア ドレ ス 172.16.00724 
が 172.16.0.2 の バ 1721700724 
ケッ ト は ロン ゲ 172.17.10724 


スト マッ チ に よ 
り リル ー タ ー 1 へ 


172.16.0.0/24 


図 5 ルー ティ ング と ロン ゲス トマ ッ チ 


Linux サ ー バ ー が パケ ッ ト を 送信 する と き の ネ クス ト ホ ッ プ は ルー ター 1、 ル ー 
ター 2、「172.17.0.0724」 ネ ットワーク 内 の ホス ト の いずれ か 。 


IP に お ける 動作 

IP の 主 な 役割 で ある 「 ル ー テ ィ 
ング 」 に つい て 触れ ます 。IP に は 、 
IPv4 と IPv6 が あり 、 こ こ で は 、IPv4 
を 扱い ます 。 ル ー テ ィング と は 、 目 
的 の ホス ト に パケ ッ ト を 送信 する と 
き 、 次 に 送る べき 宛先 (ネクス ト ホ 
ッ プ ) を 選択 する こと で す 。 ネ クス 
ト ホ ッ プ は 、 隣 接する ルー ター や ホ 
スト な ど で す 。 ネ クス ト ホ ッ プ を 選 
ぶ に は 「 ル ー テ ィング テー プル 」 を 
使い ます 。 例 えば 、 図 5 の Linux サ 
ー パ バー が パケ ッ ト を 送信 する と き の 
ネクス ト ホ ッ プ は ルー ター1、 ル ー 
ター2、「172.17.00/24] ネッ トワ ー 
ク 内 の ホス ト の いずれ か で す 

ルー ティ ング を 行う 際 に 、 和 先 
IP アド レス に マッ チ す る ネッ トワ ー 
クア ドレ ス を 持つ エン トリ ー が ルー 
ティ ング テー ブル に 複数 存在 する 場 
合 、 ネ ットワーク の マス ク * 長 が 最 
も 長い も の を 選択 し ます 。 こ の 規則 
は 「 ロ ン ゲ スト マッ チ 」 と 呼ば れ て い 
ます 。 図 5 の Linux サ ー バ パー が 宛先 IP 
アド レス が 「172.16.02] の パケ ッ ト 
を 送る 場合 、 ルー ティ ング テー プル 
に 登録 きれ て いる 「172.16.02/32] 
と 「172.16.0.0/24| の 両方 に マッ チ 


Linux の ルー ティ ング テー ブル 


ルー ティ ング テー ブル 


17216.00724 172.17.1.1 
17216.02/32 1721712 


17217.11 
1721712 

( 欧 先 P ア ドレ ス ) 
( 先 P ア ドレ ス ) 


sm 
ei 
ae 
il 


し ます 。 こ の 場合 、 よ り ネ ッ ト ワ リー 
ク の マス ク 長 が 長い 「172.1602/32] 
が 選択 きれ 、 ネ クス ト ホ ッ プ は 
「172.17.1.1]」 に な り ま す 

それ で は 、IP の ルー ティ ング が 
どの よう に 実装 され て いる か を 見 て 
いき まし ょ う 。Linux の ルー ティ ン 
グ テ ー ブ ル は 「FIB] (Forwarding 
Information Base) と 呼ば れ ま す 
FIB は 、「 ト ライ 木 」 と 呼ば れる 順 
序 付き の 木 構造 と な っ て いま す *! 
( 図 6)。 ノ ー ド に は 「 キ ー」 ( 図 6 で 
は 「0] と 「1] か ら な る ビッ ト 列 ) 
が 格納 され て いま す 。 親 の ノー ド は 
「0]」 と 「1] の イン デック ス に より 
子 ノー ド を 識別 し ます 。 子 ノ ー ド の 
キー に は 、 親 ノー ド の キー と 
ジ の イン デック ス を 連結 し た 
納 さ れ ま す 

FIB で は 、 宛 先 ネ ットワーク を 2 
進数 に し た 値 が 葉 (リー フ 、 子 を 
持た な い ノ ー ド ) の キー と な る よう 
に トラ イィ 木 を 構成 し ます 。 こ れ に よ 
り 、 木 の 高き が 最大 で ネッ トワ ー ク 
アド レス の ビッ ト 長 の [32」 に 抑え 
られ 、 効 率 的 に 検索 で きま す 。 な 
お 、FIB の トラ イ 木 は 、 途 中 の ノー 
ド に は ルー ティ ング エン トリ ー を 持 


エッ 


格 


10101100. 0 


TCP/IP ネ ットワーク 


10101100 00010000 00000000 000000 
トラ イ 木 に 展開 


191 |1o1ottoo 00010000 
00000000 000000 


10101100 00010000 
00000000 0000001 


ブル と トラ イ 木 


た ず 、 葉 に の み エ ント リー を 持っ て 
いま す 

トラ イ 木 に よる FIB の 検索 に つ 
いて 、 ト ライ 木 が 2 分 木 と な っ て 
いる 場合 を 例 に 説明 し まし ょ う *2 
(p .124 の 図 7)。 探索 は 根 (ルー ト 、 
親 を 持た な い ノ ー ド ) か ら 始 まり ま 
す 。 検 索 対象 の 宛先 IP アド レス を 
2 進数 で 表現 する と 、 長き 32 の ビッ 
ト 列 に な り ま す 。 こ れ を 上 位 ビ ッ ト 
か ら 順 に 見 て ビッ ト 値 が 「0] な ら 


【 キ ュー】 デー タ を 保持 する 目的 に 使わ れる 
デー タ 構 造 。 

【 ハ ッシュ テー ブル 】 キー (番号 や 文字 列 な 
ど ) と 、 そ れ に 対応 する 値 を 格納 し て いる デー 
タ 構 造 。 キ ー か ら 値 を すばやく 検索 で きま す 。 

【 マ スク 】 ネッ トマ スク と 呼び ます 。 ネッ 
トワ ー ク アド レス を 表す た め の も の で す 。 
例え ば 、「192.168.1.0/24] と 書か れ て 
いた 場合 、「24] が マス ク 長 に な り ます 。 
「192.168.1.0」 を 32 ビ ッ ト の 2 進数 に 変換 
し 、 上 位 24 ビ ッ ト ま で が ネッ トワ ー ク アド レス に 
な り ま す 。 


*1 以前 は ハッ シュ テー ブル 構造 の FIB も 
使用 で きま し た が 、 カ ー ネ ル 2.6.39 で 廃止 され 
まし た 。 

*2 実際 に は FIB の トラ イ 木 は 2 分 木 の 形 
態 を 取る と は 限ら ず 、 分 岐 が 多く な る 場合 は 
複数 の ビッ ト を 集約 し て 4 つや 8 つ な ど よ り 多 く 
の 子 を 持つ ノー ド を 作り ます 。 ま た 、 途 中 で 分 
岐 の な い ノ ー ド は 短絡 され 、 よ り 効 率 的 に 探 
案 が で きる よう に な っ て いま す 。 


| 1721602732 


葉 まで 探索 し 、 ネ ットワーク アド レ 
登録 さ スク の エン トリ ー が 検索 
れ た ルー ティ ング エン トリ ー を 返す 


ス と マッ チ す れ ば 、 そ の: 


10101100 00010000 
0O000000 0000001 


宛先 |P ア ドレ ス が 172.16.0.2 の 場合 宛先 IP アド レス が 172.16.0.3 の 場合 
根 (ルー ト ) ビッ ト を 見 な が ら 1 な ら 話 、 
N n 0 な ら 左 の 子 ノー ド を 探索 


101 1oto1too ooo1ooo0 
00000000 000000 


① 葉 まで た どれ な 
けれ ば 、 木 を さか の 
ぼっ て より 短い サブ 
ネッ トマ スク の エン 
トリ ー を 探索 


⑤ 次 に 長い サブ ネッ トマ 


され る 


図 7 トラ イ 木 に よる ネッ トワ ー ク アド レス の 探索 


トラ イ 木 が 2 分 木 と な っ て いる 場合 の 例 。 


netfilter 
(パケ ッ ト フ ィ 


ル タ リ ング や 
NAT 処理 ) 


ルー ティ ング 


図 9 IP 層 で フッ ク で きる 科 所 


TINPUTJ「OUTPUTJ「FORWARD」「PREROUTING」「POSTROUTING」 の 5 カ所 。 


ば 左 の 子 ノ ー ド 、「1] な ら ば 右 の 子 
ノー ド と いっ た よう に 、 ビ ッ ト 値 に 
応じ て 木 を た どっ て いき ます 。 葉 ま 
で た どる こと が で き 、 検 索 対象 アド 
レス に 合致 する エン トリ ー が 見 つか 
る と 、 そこ で 探索 を 終了 し ます ( 図 
7 の 諾 )。 

探索 の 途中 で 合致 する 子 ノー ド 
が な く 、 そ れ 以 上 木 を た どれ な く な 
っ た 場合 は 、 木 を きか の ぼり 、 次 に 
長い ゥ サ プ ネ ッ ト マ スク の エン トリ ー 
を 探索 し ます ( 図 7 の 右 )。 こ の よ 
うな 処理 に より 、 ロ ン ゲ スト マッ チ 
を 実現 し て いま す 。 


PREROUTING 


| ss 9 パケ ッ ト 愛 信 時 の パ 
Lu グ 前 処理 ル 


TCP を ど 


自分 宛て パケ ッ ト の 場合 の 処理 


転送 対象 パケ ッ ト の 処理 Les 
FORWARD 


POSTROUTING 


信 叶 の 
グ 後 処理 


ネッ ト デ バ イス 


各 テ ー プ ル は 「ip route show」 コ 
マン ド で 確認 で きま す ( 図 8)。 こ れ 
ら は 、 ト ライ 木 を 走査 し て 展開 する 
こと で 出力 し て いま す 。 


netfilter に お ける 動作 
netfilter に は 、 パ ケッ ト を 送受 信 
する 際 に パケ ッ ト を 検査 し 、 設定 し 
た 条件 に マッ チレ し た 場合 に パケ ッ ト 
を 廃棄 する 機能 (パケ ッ ト フ ィ ル タ 
リン グ ) や プライ バー トド ボウ トワ 
ー ク か ら イ ンタ ーネット へ 接続 する 
た め に 、IP ア ドレ スヤ ポート 番号 
を 変換 する 機能 (NAT) な ど が 侯 


# jp route show 器 

default via 172.20.0.1 dev eth 
0 proto static 
172.20.128.0/18 dev ethO prot 
o kernel scope link src 172. 
20.149 

・151 metric 1 


図 8 iproute show コ マン ド に よる ルー テ 
ィング テー ブル の 確認 

1 列 目 は デフ ォ ル トゲ ー ト ウェ イ ( ど の ルー ト に も 
計 当 し な か っ た 場合 に 使用 され る ネクス ト ホ ッ プ ) 
が [172.20.0.1] で ある こと を 、2 列 目 は 「ethO」 に 直 
接 接続 きれ た ネッ トワ ー ク を 表す 。 


わっ て いま す 。 netfilter で は 、TP 層 
に お ける 特定 の 関数 を 呼び 出す と き 
に 、 そ の 処理 の 直前 に NAT な どの 
前 処理 を 実施 で きま す 

IP で 利用 で きる netflter の 機能 
は iptables] コマ ンド で 制御 で き 
に の よう に 、5 つ の ポイ ン 
ト に 対し て パケ ッ ト フ ィ ル タリ ング 
や NAT の 設定 が 可能 で す 。 netiilt 
er は パケ ッ ト を 受け 取る と 、 ユ ー ザ 
ー が iptables コマ ンド で 指定 し た ル 
ー ル に パケ ッ ト が マッ チ す る か どう 
か を チェ ッ ク し 、 マ ッ チ レ し た 場合 は 
指定 され た アク ショ ン (廃棄 や アド 
レス 変換 な ど ) を 実行 し ます 

カー ネル 3.13 で は 、netfilter に 代 
わる 選択 肢 と し て nftables が 導入 き 
れ ま し た 。nftables で は 、 複 数 の ア 
クシ ョ ン を 1 つの ルー ル で 設定 で き 
る な ど 、netfilter よ りき め 細 や か な 
設定 が 可能 と な り ま す 。 

また 、nftables は netfilter と 異な 
り 、 カ ー ネ ル 内 で 特定 の プロ トコ ル 
に 依存 し な い パ ケッ ト の 解析 方 法 
を 使用 し て いま す 。 そ の た め 、 新 し 
い プ ロト コル を サポ ー ト する よう な 

合 で も カー ネル の アッ プ デ ー ト が 
不要 で す 。nft な どの ユー ザー 空間 
の ツー ル の み を アッ プ デ ー ト する こ 
と で 対応 で きま す 。 


ネッ ト デ バ イス に お ける 動作 
ネッ ト デ バ イス は 、 主 に 送受 信 パ 


デフ ォ ル ト で 選択 され る 送 
信 ス ケ ジ ュ ー ラ ー。 IP パケ ッ ト の TOS 
値 * 1 など に 応じ て 優先 順位 付け し て バ 
ケッ ト を 送信 


ii 代表 的 を パテ ケッ ドス ケ ジ ュ ー ラ ー 


pfifo_fast 


HTB (Hierarchic ユー ザー の 設定 に 基づい て 階層 的 に トラ 
al Token Bucket) フィ ッ ク を 分 類 し 、 帯 域 を 制御 で きる ( シ 


ェ ー ビ ピン グ キ 2) 


受信 専用 の パケ ッ ト ス ケ ジ ュ ー ラ ー。 帯 

域 を 制御 で きる (ポリ シン グ * 3) 
*1 Type Of Service の 貼 で 、IPv4 の パケ ッ ト の ヘッ ダー を 構成 す 
る フィ ー ル ド の 一 つ 。IP パ ケッ ト の 優先 度 を 表す た め に 使用 され る 。 
*2 帝 域 制御 の 方 式 の ー つ で 、 間 域 の 制限 値 を 直 え た パケ ッ ト を キ 
ュー に 格納 。 パ ケッ ト の 受信 レー ト の 変動 を 吸収 し 一 定 の 値 に な ら す 
効果 が ある 。 た だ し 、 キ ュー イン グ に よる 遅延 発生 する 可能 性 が ある 。 
*3 帝 域 制 傷 の 方 式 の ー つ で 、 希 域 の 制限 値 を 震え た パケ ッ ト を 廃 


乗 する 。 


ケッ ト の パケ ッ ト ス ケ ジ ュ ー ラ ー へ 
の キュ ー イ ング * や パケ ッ ト 受 信 時 
の ポー リン グ * お よび 上 位 層 へ の 引 
き 渡 し な ど 、 デ バイ ス ド ラ イ バ に 依 
存 し な い ネ ットワーク イン タフ ェ ー 
ス ご と の 処理 を 実施 し ます 。 ネ ッ ト 
デパ イス の 動作 イメ ー ジ を 図 10 に 
示し ます 

ネッ ト デ バ イス の 役割 の 1 つ は 、 
受信 し た パケ ッ ト を プロ トコ ル に 応 
じ て 上 に 振り 分 ける こと で す 
ネッ ト デ バ イス は 、 デ パイ ス ド ラ イ 
パ か ら 受 信 し た パケ ッ ト の プロ トコ 
ル を 示す 番号 か ら パ ケッ ト を 送信 3 
べき 上 位 層 を 判定 し 、 対 応 する 処理 
すべ き 関 数 を 呼び 出し ます 

ネッ ト デ バ イス は 、 ハ ー ド ウエ ア 
か ら 効 率 的 に 受信 パケ ッ ト を 受け 取 
る 仕組 み も 備え を てい ます 。 こ の 仕組 
み は 「NAPII (New API) と 呼ば 
れ 、 パ ケッ ト の 受信 ご と に 割り 込み 
を 発生 きせ ず 、 ある 程度 バケ ッ ト を 
00 人 ES 
こと で 、 割り 込み の 回 数 を 減ら し ま 
す 。 デ パイ ス ド ラ イ バ が NAPI を 利 
用 する 場合 、 割 り 込 み 発生 時 に ネッ 
ト デ バ イス が ドラ イ バ ヘ へ ポー リン グ 
し 、 ま と め て パケ ッ ト を 取得 し ます 。 

ネッ ト デ バ イス で は パケ ッ ト ス ケ 
ジュ ー ラ ー を 使用 で きま す 。 送 信用 
の パケ ッ ト ス ケ ジ ュ ー ラ ー は さま ざ 
まな 種類 の も の を 選択 で き 、 帯 域 制 


さま ざま な スケ ジュ ー 
ラー を 選択 可能 


パケ ッ ト 送信 パケ ッ ト 受 信 


TCP/IP ネッ トワ ー ク 


図 10 ネッ ト デ バ イス 
の 動作 イメ ー ジ 
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図 11 bufferbloat の 概要 
TCP の 輸 そ う 制 利 や 延 に 敏感 な アプ リケーション が 正常 に 動作 し な く な る 。 


御 * や 優先 制御 * な ど を 行う こと が 
で きま す 。 受信 用 の パケ ッ ト ス ケ ジ 
ュー ラー は 1 種類 (ingress) し か あ 
り ま せん 。 表 1 に 代表 的 な パケ ッ ト 
スケ ジュ ー ラ ー を 人 挙げ ます 

最近 で は 「buffcrbloat| と 呼ば れ 
る 問題 に 対応 する た め 、 さ きま ざま な 
スケ ジュ ー ラ ー が 追加 され まし た 。 
bufferbloat と は 、 ネ ットワーク の 幅 
そう 時 に サー バー や ルー ター の キュ 
ー に 多数 の パケ ッ ト が 滞留 する 状態 
が 定常 的 に 続く こと で 遅延 が 大 きく 
な り 、TCP の 幅 そ う 制 御 * や 遅延 に 
敏感 な アプ リケーション が 正 
作 し な く な る 問題 で す 
fferbloat へ の 対応 は 、 こ 
ッ ト な トピ ッ ク の 1 つ で す 。 

これ まで も bufferbloat を 低減 で 
きる スケ ジュ ー ラ ー は あり まし た 。 
し か し 、 非常 に チュ ー ニ ング が 上 難し 
く 、 使 い に く いも の に な っ て いま し 
た 。 これ を 改善 する た め 、 ほぼ チュ 


ー ニ ング が 不要 な スケ ジュ ー ラ ー が 

くつ か 導入 きれ まし た 。 「CoDell 
と 「FQ-CoDell は 、 パ ケッ ト が ス 
ケ ジ ュ ー ラ ー に 滝 留 し た 時 間 に 応じ 
て パケ ッ ト を 廃棄 し 、 ス ケ ジ ュ ー ラ 
ー 内 の 遅延 を 一 定 以下 に 抑え ます 
「FQ]」 は TCP の プロ トコ ルス タッ 
ク と 連携 し て パケ ッ ト の 送信 間隔 
を 調整 し 、 ス ケ ジ ュ ー ラ ー や ネッ ト 

ー タ 機器 の キュ ー に パケ ッ ト を 滞 
留 し づら くし ます 。 説明 は 省略 し ま 
す が 、 ほ か に も 「PIE」 や 「HHF] 
な ど 複 数 の スケ ジュ ー ラ ー が 導入 き 
れ て いま す 


【 キ ュー イン グ 】 キュ ー に 取り 込む こと で す 。 
【 ボ ー リ ング 】 処理 すべ き 要 求 が な いか を 問 
い 合わ せる こと で す 。 

【 帯 域 制 御 】 パケ ッ ト の 送受 信 量 を 調整 す 
る 機能 で す 。 

【 優 先制 御 】 パケ ッ ト の 送信 順序 を 制御 す 
る 要 能 で す 。 

【 四 そ う 制 御 】 ネッ トワ ー ク の 処理 能力 に 合 
わせ て パケ ッ ト 送 信 量 を 調整 する 機能 で す 。 


デパ イズ 


の - 


還 還 oyword 
デバ イス ドラ イ バ 、 キ ャ ラク 
ター デバ イス 、 ブ ロッ ク 
デバ イス 、 ネ ットワーク デバ 
イス 、 割 り 込 み コ ント ロー ラ 
ー、 ハ ー ド ウエ ア 割 り 込 
み 、 タイ マー 割り 込み 、 ソ フ 
トウ エア 割り 込み 、 同 期 / 
非同期 処理 、 仮想 デバ イス 


デバ イス に は 、 キ ャ ラク ター デバ イス と ブロ ッ ク デ バイ ス 、 物 理 的 な も の の ほか に 仮想 的 な も の も ある な ど 、 
奥 が 深い 分 野 と いえ ます 。 Part5 で は そん な デバ イス や 、 そ れ を 管理 する デバ イス ドライ バ に つい て 解説 し ます 。 


「 デ バイ ス 」 は 、 
ウエ ア 全 般 を 】 
nux カー ネル は す 
ア を 制御 し ます 
エア と な る と 1 回 で は 説明 し 切れ な 
い の で 、 こ こ で は 範囲 を 絞り ます 
CPU や メモ リー な ど コ ンピュータ 
: 限 の も の を 除 
く 、 機 器 全般 を 指す こと に し ます 

コン ピュ ー タ の 主要 機能 は 、CPU 
に よる 演算 で す 。 し か し 、 さまざま 
な デバ イス が な けれ ば 、 データ の 入 
カカ や 出力 、 保 存 な ど が で きま せん 
人 や 他 の コン ビュー タ か ら 指 令 を 受 
ける こと も 、 処 理 結果 を 伝え る こと 
も 不可 能 で す 。 そ うい っ た 意味 で デ 
バイ ス の 制御 は 、 カー ネル の 最も 重 


て の ハー ドウ エ 


すべ て の ハー ドウ 


要 な 仕事 の ー つ で す 
デバ イス ドラ イ バ と は 何 か 

「 デ バイ ス ドライ バ 」 は 、 デ バイ 
ス を 制御 する た め の モ ジュ ー ル ( カ 
ー ネ ル に 動 的 に 組み 込め る ソフ トウ 
で す *1。 こ の デパ イス ドラ イ 
ユー ザー プロ グラ ム (アプ リ 
ケー ショ ン ) や カー ネル 内 の 各 サ プ 
シス テム \ と 、 デ バイ ス と の 仲立 ち 
を し て 、 デバ イス ご と の 細か な 特性 
作 方 法 な どの 人 違い を 吸収 し ま 
す ( 図 1) 

提供 する イン タフ ェ ー ス や 機能 
は 、 デ バイ ス の 種類 に よっ て 異な り 
ます 。 し か し 、 デ パイ ス の 検出 、 初 
期 化 、 設定 、 状態 取得 、1/) な ど を 、 


エア ) 


バ は 、 


ユー ザー 
プロ グラ ム 


ーー ザー 
プロ グラ ム 


デバ イス 


デバ イス 


| テバ イス | | デバ ィ イス | 


図 1 デバ イス ドラ イ バ の 概念 図 


ユー ザー プロ グラ ム ( ア プリ ケー ショ ン ) や カー ネル 内 の 各 サ ブシ ステ ム と 、 デ パイ ス の 仲立 ち を する 。 


0 イス の 仕様 を 気 に せ ず に 同じ 
に 制御 で きる 機能 は 、 各 デ バイ 
ス ド ラ イ バ が 共通 し て 持ち ます 
ユー ザー プロ グラ ム に 対し て は 、 
デバ イス ご と に ファ イル イン タフ ェ 
ー ス が 提供 きれ て いま す 。 そ れ に よ 
っ て 「open」 「closel Iread」「wr 
ite]」 な どの 関数 で デパ イス を 制御 で 
きま す 。 こ の イン タフ ェ ー ス と な る 
ファ イル は 「/qdev] ディ レク トリ ー 
以下 に 作成 され ます 
また 、 カ ー ネ ル 内 の 各 サ プシ ス 
テム 用 の API* に よっ て 、 さ ま ざ ま 
な デパ イス を 同一 の ひ サ プシ ステ ム で 
動か せる よう に する 仕組 み も ありま 
す 。 ネ ットワーク デパ イス が その 例 


デバ イス の 種類 

ユー ザー か ら の アク セス 方 法 の 観 
点 で デバ イス を 分 類する と 、 大 きく 
分 け て 「 キ ャ ラク ター デバ イス 」「 プ 
ロッ ク デ バイ ス 」「 ネ ットワーク デ 
パイ ス 」 の 3 種類 が 存在 し ます 


(1) キャ ラク ター デバ イス 

キャ ラク ター (文字 ) 単位 の デー 
タ を スト リー ム * と し て 取り 扱う デ 
パイ ス で す 。 ス トリ ー ム デー タ な の 
で 、 デ ー タ 位置 を 表す アド レス な ど 


の 概念 を 持ち ませ ん 。 デ バイ ス の 先 
頭 部 分 を 読む か 書く か 程度 の 単純 
な 作り に な っ て いま す 
ボー ド は キャ ラク タ 
ー デ バイス の 一 種 で す 。 キ ー ボ ー ド 
の 場合 は キー を 押す と 、「 キ ー イ ベ 
ント *」 が カー ネル に 送出 され ます 
カー ネル は それ を 読み 込み 、 キー 
イベ ント 情報 を 「/dev/console」 フ 
ァイル 経由 で 参照 可能 に し ます 。 ユ 
ー ザ ーブログ ラム は 、 こ こ か ら キ ー 
イベ ント 情報 を 取り 込ん で 、 画 面 に 
出力 し ます 


(2) ブロ ッ ク デ バイ ス 

デー タ を プロ ッ ク 単 位 で 処理 する 
デバ イス で す 。 プ ロッ ク と は 、 デ 
パイ ス ご と に 決め られ た 最小 処理 
単位 で す 。 プ ロッ ク デ バイ ス の 特徴 
は 、 こ の プロ ッ ク 単 位 で アド レス マ 
ッ プ * を 作り 、 ラ ンダ ム に アク セス 
で きる こと で す 

プロ ッ ク デ パイ ス の 代表 例 は 「/ 
dev/sda] な ど に 割り 当て られ た ス 
トレ ー ジ デバ イス で す 。 ス トレ ー ジ 
デバ イス で は 、 初 期 化 時 に プロ ッ 
クア ドレ ス の マッ プ を 作成 し ます 
その アド レス マッ プ が 完成 し て いれ 
ば ぱ 、/qdev/sda な どの デバ イス ファ 
イル を 開き 、 フ ァイル の アド レス と 
し て スト レー ジ の プロ ッ ク ア ドレ ス 
を 指定 で きま す 。 そ れ に よっ て 、 デ 
バイ ス 上 の 任意 位置 に ある 情報 を 
読み 書き で きま す 。 

た だ し 、 ほ と ん どの 場合 、 プ ロ 
ッ ク ア ドレ ス を 使っ て 直接 アク セス 
する こと は あり ませ ん 。 ス トレ ー ジ 


図 2 コン ソー ル デ バ イス の 確認 
この デバ イス は 、 キ ャ ラク ター デバ イス で ある 。 


5 1s -1 /dev/sda ロ 
w-rw---- 1 root disk 8, 0 Nov 


図 3 内 蔵 ハー ド デ ィ スク の 確認 
この デバ イス は 、 ブ ロッ ク デ バイ ス で ある 。 


$ 1s /dev/eth* ロロ 
1s: cannot access /dev/eth*: No such file or directory 


$ 1s /dev/1o 器 


2013 /dev/sda 


1s: cannot access /dev/1o: No such f1le or dfirectory 


図 4 ネッ トワ ー ク デバ イス の 確認 
デバ イス ファ イル が 存在 し な い 。 


ト 上 に ファ イル シス テム を 構築 し て マ 
ウン ト し 、 ユー ザー プロ グラ ム は フ 
ァイル シス テム 越し に アク セス し ま 
す 。 な お 、 デバ イス ファ イル を 直接 
扱う コマ ンド 群 で ある 「dd] や 「mk 
fsS」、 フ ァイル シス テム 自体 は 、 プロ 


の 具体 的 な 動作 に 関し て は 前 回 の 
「TCP/TP ネ ットワーク 」 で 詳し く 
説明 し まし た 


デバ イス の 種別 を 確認 する 
コン ソー ル デ バ イス の デバ イス フ 


ッ ク ア ドレ ス を 利用 し て いま す ァイル (/qdev/console) を 「ls] コ 
マン ド で 見 て み ま し ょ う ( 図 2)。 先 
頭 の 「c] は 、 こ の デバ イス が キャ 
ラク ター デバ イス で ある こと を 示し 
て いま す 。 日付 は 、OS を イン スト 
ー ル し た 日 に よっ て 異な り ま す 
次 に 内 蔵 ハ ー ド ディ スク の デバ パイ 
ス フ ァ イル (/dev/sda) を 見 て み ま 
し ょ う ( 図 3)。 先頭 の 「b] は 、 こ 
の デパ イス が プロ ッ ク デ バイ ス で あ 
る こと を 意味 し ます 。 ネ ットワーク 
イン タフ ェ ー ス の 「eth0」 や 「lo」 


(3) ネッ トワ ー ク デバ イス 

ネッ トワ ー ク 通信 の デー タ を 扱う 
デパ イス で す 。 ネ ットワーク 通信 で 
は 、 フ ァイル イン タフ ェ ー ス は 提供 
され ませ ん 。 デ バイ ス の 上 層 に サ プ 
シス テム と な る 「 ネ ットワーク スタ 
ッ ク キ | が 構築 され ます 

ユー ザー プロ グラ ム は 、 こ の ネ 
ットワーク スタ ッ ク を 経由 し て デバ 
イス ドラ イ バ を 呼び 出し ます 。 こ 


【 サ ブシ ステ ム 】 全体 の シス テム の 一 部 で す が 、 そ れ 自 体 が 1 つの 機能 を 構成 する シス テム と し で 動 
作 する も の を 指し ます 。 

【API】 Application Programming Interface の 略 。 サ ブシ ステ ム な どの ソフ トウ エア コン ポー ネン ト 
間 で や り 取 りす る た め の イ ンタ フェ ー ス で す 。 

【 ス トリ ー ム 】 デー タ の 流れ を 示す 言葉 で す 。 

【 キ ー イ ベン ト 】 キー が 押さ れ た こと を 示す 通知 で す 。 

【 ア ドレ スマ ッ プ 】 アド レス と 割り 当て 位置 を 示し た 地図 。 ア ドレ スマ ッ プ を 利用 する こと で 、 任 意 の 坦 
所 に アク セス で きま す 。 

【 ネ ットワーク スタ ッ ク 】 TCP や IP な どの プロ トコ ル を 処理 する 部 分 で す 。 各 プロ トコ ル を 処理 する 層 
(レイ ヤー) を 積み 重ね て いる た め 、 ス タッ ク と 呼ば れ ま す 。 


キ 1 デバ イス ドラ イ バ は 広範 囲 な 制御 を 実現 し ます 。 例 えば 、Linux で は . CPU の 人 省 電力 機能 を デ 
バイ ス ド ラ イ バ で 扱い ます 。 た だ し 、 こ こ で は ,. 主 な デバ イス に 共通 する 特徴 の み を 解説 し て いま す 。 


よっ て 分 岐 


割り 込み 発生 


割り 込み コン トロ ー ラ ー 


割り 込み の 種別 に 


ご と に 用 意 さ れ た 女 理 


割り 込み ハン ドラ ー 


デバ イス デバ イス デバ イス 


図 5 割り 込み の 処理 


種別 ご と に 設定 され た 処理 ( 祝 り 込み ペン ドラ ー) を 実行 する 。 


に 対応 する デパ イス ファ イル は あり 
ませ ん ( 図 4) 


| 割り 込み 人 


で 説明 し た デパ バイ 0 
を 理解 する 上 で 重要 な 概念 
「 割 り 込 み ] が あり ます 提 
、 何 か の 処理 を 実行 し て いる 最 
中 に 、 別 の 処理 を 割り 込ま せる た め 
の 仕組 み で す 。 こ の 割り 込み に は 、 
CPU に 実装 され て いる 機能 を 使う 
「 ハ ー ド ウエ ア 割 り 込み ] と 、 ソ フ 
トウ ゥ エア で 用 意 し た 機能 を 使う 「 ソ 
フト ウエ ア 割 り 込 み ] の 主 に 2 種類 
が あり ます 


(1) ハー ドウ エア 割り 込み 


文字 通り 、 ハ ー ド ウエ ア か ら の 割 
り 込 み で す 。 現在 、 ほ と ん どの CPU 


に は 割り 込み を 処理 する 機能 が あり 
ます 。 た だ 、 コ ンピュータ に は 通常 、 
複数 の デパ バイス が 接続 され て いる の 
で 、 各 デ パイ ス か ら 同 時 に 送ら れ て 
いる 割り 込み を 調 佑 す る | 割り 込み 
コン トロ ー ラ ー」 も 別に 用 意 さ れ て 
いま す 。 

割り 込み コン トロ ー ラ ー か ら 割 り 
込み 要求 を 受け 取っ た CPU は 、 実 


行 中 の 処理 を いっ た ん 中 断 し 、 割 


り 込 み の 種別 ご と に 設定 され た 処理 
(割り 込み ハン ドラ ー) を 実行 し ま 
す ( 図 5) 。 例え ば 、 キ ー ボ ー ド の キ 


ー を 押し た と き に 、 ハー ドウ エア 割 
り 込 み が 発 生 し 、 キ ー ボ ー ド の 信号 
を 処理 する た め の 割 り 込 み ハ ンド ラ 
ー が 動作 し ます 

この よう な 、 デ バイ ス に 発生 する 
イベ ント を きっ か け と する mr 
に 、 定期 的 に 発生 する よう に 設定 
た 割り 込み も あり ます WW 
「 タ イマ ー 割 り 込 み ] で す 。 タ イマ 
ー 割 り 込 み は 、 カ ー ネ ル 全 体 の 時 間 
管理 に 関わ る 割り 込み で す 。 ス リー 
プ や タイ ム ア テウ ト な ど 、 時間 に 関連 
する 処理 全般 に 使用 し ます 

中 断 し て は いけ な い 処 理 を 実行 
し た い 場 合 は 、CPU を 割り 込み 禁止 
状態 に する こと で 、 割り込み を 待た 
せる こと が で きま す 

この 割り 込み 禁止 状態 を 無視 す 
る 割り 込み を 「NMI| (None Mask 
able Interrupt) と 呼び ます 。 主 に 
致命 的 な エラ ー な ど を 通知 する 際 に 
発生 し ます 。Linux で は 、NMI の ハ 
ンド ラー 内 で カー ネル の スタ ッ ク キ * 
を 出力 し た り 、 ク ラッ シュ ダン プ キ * 
を 取得 し た り し て 原因 究明 に 必要 


な 情報 を 提供 し ます 。 


(2) ソフ トウ エア 割り 込み 

ソフ トウ エア で 実装 し た 割り 込み 
で す 。 ハ ー ド ウエ ア 割 り 込 み と 信 っ 
て 、 ソ フト ウエ ア 割 り 込み は 、 CPU 
が 忙し い 場合 に 遅延 実行 で きる よ 
うに な っ て いま す 。 利 用 例 と し て 
は 、 ハ ー ド ウエ ア 割 り 込 み 処理 の 補 
助 な ど が あり ます 。 ハ ー ド ウエア 割 
り 込 み ハ ンド ラー の 実行 中 は 、 優先 
度 が 低い 割り 込み が 禁止 状態 に な り 
ます 。 そ の た め 、 ハー ドウ エア 割り 
込み ハン ドラ ー の 中 で 多く の 処理 を 
実行 し て いる と 、 シス テム の 応答 性 
が 悪く な り ま す 

この 間 題 を 防ぐ で た め に 、 ハー ドウ 
エア 割り 込み ハン ドラ ー の 多く は 、 
割り 込み 状態 の クリ アー な どの 必要 
最低 限 の 処理 だ け を 実行 し 、 残 り の 
処理 は ソフ トウ エア 割り 込み で 行う 
よう に し て いま す 
は 、 ネ ットワーク の 受信 処理 
に お ける ハー ドウ エア 割り 込み と ソ 
フト ウエ ア 割 り 込 み の 分 担 を 示し て 
いま す 。 ま ず 、 NIC (ネッ トワ ー 
イン タフ ェ ー ス カー ド ) が パケ ッ ト 
を 受信 する と 、 ハー ドウ エア 割り 込 
み が 発 生 し ます 。 カ ー ネ ル は 、 パ 
ケッ ト を 処理 する た め の ソ フト ウエ 
割り込み を 発生 する と と も に 、 ハ 
ー ド ウエ ア 割 り 込 み を 処理 済み に し 
て 、 次 の ハー ドウ エア 割り 込み を 受 
け 付 け 可 能 な 状態 に し ます 。 

その 後 、 処 理 能力 に 余裕 が ある と 
き に 、 ソ フト ウエ ア 割 り 込 み が 処理 
きれ 、 受信 し た パケ ッ ト の プロ トコ 


ル に 応じ た 処理 を 実行 し ます 


同期 処理 と 非同期 処理 

割り 込み の 恩恵 を 理解 する に は 、 
同期 処理 と 非同期 処理 に つい て 理 
解す る こと が 大 切 で す 。 デ バイ ス に 
限ら ず 、 処 理 は 「 要 求 」 [処理 ] 「 応 
答 」 の プロ セス に 分 解 で きま す 

同期 向 は 、 要求 か ら 応答 まで 

を 、 常 に 要求 元 と 要求 先 で 同期 ( 同 
症 し な が ら 実 行 し ます 。 そ の た 
め 、 要 求 元 は 応答 を 受け 取っ て 結果 
を 得る まで 他 の 作業 を 行え を ませ ん 。 

非同期 処理 は 、 要 求 か ら 応答 まで 
を 、 要求 元 と 要求 先 が 同期 せ ず に 実 
行 し ます じ 
た ん 要求 を 発行 し た と 
答 を 返す まで は 他 の 作業 を 行え ます 
( 図 7)。 

ほとん どの デパ イス は 、CPU と 

比べ て 処理 が は る か に 遅い の で 、 非 

St デバ イ 
ス が 処理 を 完了 する まで の 時 間 は 、 
CPU に と っ て は 長い の で 、 そ の 間 に 
他 の 作業 を 実施 で き な い と CPU の 
処理 能力 が 無駄 に な っ て し まう か 
ら で す 


マル チキ ュー 

割り 込み に 関連 する 比較 的 最近 
の トビ ピック に 、 高 頻度 の 割り 込み に 
対応 で きる よう に 割り 込み を 複数 の 
CPU に 分 散 き せる 「 マ ル チ キ ュー] 
が あり ます 。 マ ル チ キ ュー 対応 の デ 
バイ ス は 、1 つ の デバ イス が 複数 の 
CPU 向け の キュ ー* を 持ち 、 キ ュー 
に 別 の ハー ドウ エア 割り 込み を 


受信 し た パケ ッ ト を 
通信 プロ トコ ル に 従っ て 
処理 する 


他 の 処理 は ソフ ト 
人 り 委 と 
する 


ソフ トウ エア 割り 込み を 発生 
ハー ドウ エア 割り 込み を 処理 済み に する 


図 6 ハー ドウ エア 割り 込み と ソフ トウ エア 割り 込み の 関係 
ソフ トウ エア 割り 込み は 、CPU が 忙し い 場 合 に 遅 下 実行 で きる 。 


ソフ トウ エア 
割り 込み 


| ぁ ー ネ ル | 


図 7 同期 処理 と 非同期 処理 


非同期 処理 な ら 、 要求 元 は いっ た ん 要求 を 発行 し た ら 、 要 求 先 が 応答 を 返す まで は 他 の 作業 を 実施 で きる 。 


発生 きせ ます 。 な お 、 デパ イス ドラ 
イ バ 側 で マル チキ ュー を 有効 化し て 想定 
いな いと 使え ませ ん *? 


だく ST Express* 直 結 の SSD* を 
ゝ プロ ッ ク レ イヤ ギー (プロ 


Linux の 10G ビ ピッ トイ ー サ ネッ ト 
ドラ イ バ と ネッ トワ ー ク スタ ッ ク は 
マル チキ ュー に 対応 し て いま す 。 ま 


ッ アバ オ ス ド ラ イ バ の 共通 部 分 ) 
の マル チキ ュー 対応 が 進め られ て い 
ます 

マル チキ ューNIC を 備え る サー バ 


【 ス タッ ク 】 内 部 で 処理 し て いる デー タ な ど を 保存 し て いる 領域 で す 。 
【 ク ラッ シュ ダン プ 】 エラ ー な ど が 発生 し た と き の メ モリ ー の 中 身 を 記録 し た も の 。 こ れ を 解析 し て 、 エ 


ラー 発生 原因 な ど を 調べ ます 。 


【 キ ュー】 デー タ を 保持 する た め に 使わ れる デー タ 構 造 。 

【PCl Express】 PC の 内 部 に ある 拡張 カー ド 用 の イン タフ ェ ー ス で す 。 現在 の 主流 は PCI Express 
3.0 で あり 、 実 効 デ ー タ 転送 速度 は 双方 向 で 2G … 64G バ イト / 秒 と 高速 で す 。 

【SSD】 Solid State Drive の 申 で 、 フ ラッ シュ メモ リー を 使っ た スト レー ジ で す 。HDD に 比べ て 、 高 


速 に アク セス で きる 製品 が 数 多く あり ます 。 


図 8 マル チキ ュー NIC を 備え る サー バー の 割り 込み 処理 
割り 込み が CPUO、CPU2、CPU3 に 分 散 し て いる 


ー を 例 に 説明 し ます 。 割 り 込 み 状態 ハー ドウ エア だ け で な く 、 仮 想 的 な 
が 記録 きれ て いる 「/proc/interru ハー ドウ エア と な る 「 仮 想 デ バイ ス 」 
pts」 ファ イル を 見 て み ま し ょ う ( 図 も あり ます 。 こ の 仮想 デバ イス は 、 
8)。「eml-rx-1] か ら 「eml-rx-4| ま 主 に デバ イス に 機能 を 
で の 4 つの 受信 キュ ー が あり 、 割 り 。 め の も の と 、 入 出力 
込み が 「CPU0] 「CPU2] 「CPU3] デパ イス を 想定 し て いる プロ グラ ム 
の 3 つの CPU に 分 散 き れ て いる こ を 動作 ・ 連 携 き せる た め の も の に 分 
が 分 か り ま す 類 で きま す ( 表 1) 


に 仮想 ブロ ッ ク デ バイ ス 
7 仮想 デバ イス | RAID* や レプ リケーション * の 


Linux の デバ イス に は 、 物 理 的 な よう な スト レー ジハード ウエ ア の 機 


表 1 主 な 仮想 デバ イス 
Ei 仮想 デバ イス 
デバ イス に 機能 を 付け 加え る 仮想 ブロ ッ ク デ バイ ス 、 ボ ン デ ィング な ど 


デバ イス と の イン タフ ェ ー ス と な る プロ グラ ム を 動か 二 本 
す 、 ま た は 連携 させ る 仮想 ネッ トワ ー ク 、pty、loop な ど 


表 2 device-mapper を 利用 し た 仮想 ブロ ッ ク デ バイ ス 


複数 の ディ スク や パー ティ ショ ン を プー ル し 、 そ の ブー ル か ら 議 理 ボ リュ 
LVM ー ム を 作成 で きる 。 論 理 ボ リュ ー ム は 、 パ ー テ ィ シ ョ ン と 異な り 、 他 

理 ボ リュ ー ム を 消去 や 移動 する こと な く 大 き さ を 変え られ る 。 ま た 、 ミ ラ 

ー リ ング (複製 ) や 午 き 込み 可能 な スナ ッ プ ショ ッ ト を 作成 可能 

HBA (Host Bus Adapter) や スト レー ジコ ント ロー ラー を 多重 化す る マ 


at ル チ パ ス デ バイ ス を 作成 
ソフ トウ エア に よる 階層 スト レー ジ で 、 高 速 で 高価 な SSD と 低速 安価 な 
ee HDD の 組み 合わ せ を 1 つの ブロ ッ ク デ バイ ス と し て 利用 可能 に する 


表 3 その 他 の 仮想 ブロ ッ ク デ バイ ス 


ソフ トウ エア で 実現 する た め 
バイ ス で す 。 代表 的 な 仮想 デ 
バイ ス に 「device-mapper」 が あり 
ます 。device-mapper は 、 特 定 の 
機能 を 実装 し た も の 
ロッ ク デ バイ ス を 抽 和 化す 2 る フレ ー 


の 


ム ワ ー ク まで す 。device-mapper を 
利用 し た 仮想 プロ ッ ク デ パイ ス に は 
「LVM*3|「dm-multipath」「dm- 
cache] な ど が あり ます ( 表 2) 
device-mapper の ほか に も 、 表 3 
の よう な 仮想 プロ ッ ク デ パイ ス が あ 
り ま す 。 この 中 の loop を 使っ て 、ISO 
イメ ー ジ 形式 の ファ イル (ubuntu- 
14.04-desktop-amd64jiso) を マウ ン 


ト す る 例 を 示し ます 


3 sudo mount -t ubuntu-14.04-d 
esktop-amd64.1so /mnt -o looDP, 
ro ロ 


「df」 コマ ンド を 実行 する と 、「[/ 
dev RE ファ イル が マウ ント さ 
れ て いる こと が 分 か り ま す 


仮想 ブロ 


md (multiple devices) 


4 トウ エア に よる RAID 実 装 。device-mapper の 登場 以前 か ら 


リモ ー ト に ある サー バー の デバ イス や ファ イル を ブロ ッ ク デ バイ ス 


nbd (network block device) と し て 取り 扱え る 


nbd で も 似 た よう な こと を 実現 
で きる が 、DRBD に は 変更 が ど 


ロー カル の ブロ ッ ク デ バイ ス と 、 リ モー ト に ある サー バー の ブロ ッ こ 
DRBD (Distributed replicated block device) ” ク デバ イス を 束ね 、 ロ ー カ ル 側 へ の 変更 を リモ ー ト 側 へ も 反映 さ の 


せる こと で 、 複 数 サー バー で の 冗長 化 を 実現 する 


信頼 性 が 高い シス テム の 構築 が 
可能 


ファ イル を ブロ ッ ク デ バイ ス に 見 せ か けら れる 。CD や DVD な ど 
loop の ISO イメ ー ジ 形式 の ファ イル を 、CD-ROM/DVD-ROM の よ 


うに マウ ント する と き な ど に 利用 され る 


EE で 


仮想 ネッ トワ ー ク デバ イス 

ネッ トワ ー ク デバ イス の 機能 を 、 
ソフ トウ エア で 実現 する た め の デ バ 
イス で す 。 代 表 的 な も の と し て 「 ボ 
ン デ ィング 」「 プ リッ ジ 」 「Open vS 
wilch] が あり ます 


・ ボ ン デ ィング 

複数 の ネッ トワ ー ク イン タフ ェ ー 
ス を 1 つ に 東 ね て 、 冗 長 化 し た り 、 
スル ー プ ブッ ト を 向上 し た りす る た め 
の 仮想 デパ イス で す 。Windows な 
ど で 使わ れる 「 チ ー ミ ング 」 と 異な 
り 、 デパ イス の 機能 に 依存 する こと 
な く 利 用 で きま す 


・ ブ リッ ジ 

仮想 的 に プリ ッ ジ * を 作る こと 
で 、 仮 想 的 な レイ ヤー2* ネ ッ ト ワ 
ー ク を サー バー 内 に 構築 し ます 。 サ 
ー バ パー 内 部 に 複数 の 用 途 の 仮想 マ 
シン を 集約 し た い が 、 仮想 マシ ン 問 
の ネッ トワ ー ク は 分 離し た い 場 合 な 
ど に 活用 し ます 


・Open vSwitch 

最近 登場 し た 、 仮 想 ネ ットワーク 
を 構築 する た め の 仮想 ネッ トワ ー ク 
デバ イス で す 。 当 初 か ら 、 複数 サー 
パー か つ ハ イ パ ー バ イザ ー* 上 で の 
利用 を 想定 し て お り 、 柔 軟 な 仮想 ネ 
ットワーク の 運用 を 可能 に し ます 


その 他 の 仮想 デバ イス 

仮想 プロ ッ ク デ パイ スヤ 仮想 ネッ 
トワ ー ク デバ イス 以外 に も 、 特 別 な 
仮想 デパ イス が あり ます 。 


・py 

仮想 的 な CUI (キャ ラク ター ユ 
ー ザ ー イ ンタ フェ ー ス ) 端末 の ペア 
か ら な る デパ バイ ス で す 。CUI 端 末 で 
の 入出 力 を 想定 する プロ グラ ム の デ 
ー タ を 読み 書き する た め に 使用 し ま 
す 。 主 な 用 途 は 、GNOME 端 末 の よ 
うな ター ミナ ル エ ミュ レー ター の 実 
装 で す 


・random と urandom 

ハー ドウ エア を 利用 し た 乱数 生 
成 機 で す 。 random の 方 が よい 乱数 
を 生成 し ます が 、 乱 数 の 生成 に 必要 
な 情報 が 集まる まで read 関数 
読み 出し 処理 を プロ ッ ク し ます 
従っ て 、 乱 数 生成 に どの くら い の 時 
間 が か か る か が 分 か ら な いと き は ur 
andom の デパ イス を 使用 し ます 。 ur 
andom の 場合 は プロ ッ ク き れず 、 生 
成 途 中 で も 乱数 の 値 を 読み 出し で き 
ます 


Pe 


・zero と null 
Zero は 、 読 み 込 むと 「0] を 出力 
し 続け る デバ イス で す 。 内 容 が 「0] 
(ゼロ ) で 初期 化 さ きれ た ファ イル を 
作成 する 際 に 利用 され ます 。 
例え ば 、 


$ dd 1f=/dev/zero of=zero1m.da 
t bs-4k count-256 器 


を 実行 する と 、0 で 埋め られ た 1M 
パイ ト の ファ イル が 作成 され ます 。 

null は 、 何 を 書き 込ん で も 、 書 き 
込み が 成功 する に も か か わら ず 、 何 
も 起こ らち な い ( 何 も ど こ に も 書か れ 
な い ) デバ イス で す 。 null は 、 一 見 
何 の た め に ある の か が 分 か ら な い デ 
バイ ス で す が 、 シ ェ ル スク リプ ト な 
ど で コ マン ド の 出力 を 無視 し た い 場 
合 に 標準 出力 * と 標準 エラ ー 出 力 * 
の リダイレクト 先 (出力 先 ) と し て 
よく 使わ れ ま す 


【RAID】 Hedundant Arrays of Inexpensive/Independent Disks の 暑 。 複 数 合 の スト レー ジ を 組 
み 合 わせ る こと で 、 高 速 化し た り 、 信 頼 性 や 可用性 を 向上 させ た りす る 仕組 み で す 。 

【 レ プリ ケー ショ ン 】 更新 され た デー タ を 同期 し し が ら 、 ス トレ ー ジ な どの 複製 作る こと で す 。 

【 フ レー ム ワ ー ク 】 ある 横 能 を 実現 する た め の 土 台 と な る ソフ トウ エア で す 。 

【 ブ リッ ジ 】 ネッ トワ ー ク を つなぐ た め の 横 器 で す 。 

【 レ イヤ ー2】 デー タリ ンク 雇 の こと 。 デ ー タ を パケ ッ ト 化し た り 、 デ ー タ の 誤り 訂正 を 実施 し た り し ます 。 
【 ハ イ バ パー バイ ザー】 1 人 台 の PC 上 で 複数 の PC を 動作 させ る 技術 に 「 仮 想 化 ] が あり ます 。 ハ イ パ ー 
バイ ザー は 、 そ の 仮想 化 に よっ て 動作 させ た PC (仮想 マシ ン ) を 制御 する ソフ トウ エア で す 。 

【 禁 準 出力 】 コマ ンド な ど を 実行 し た 結果 や メッ セー ジ を 出力 する 先 で す 。 端 末 上 で コマ ンド を 実行 
た 場合 、 標 準 出力 は ディ スプ レイ に 設定 され て いま す 。 

【 標 準 エラ ー 出 力 】 コマ ンド な ど を 実行 し た と き に 発生 し た エラ ー メ ッ セー ジ を 出力 する 先 で す 。 標 準 
出力 と は 別に 設定 で きま す 。 


*2 加え て 、 ソ フト ウエ ア 割 り 込み 処理 が 複数 の 入出 力 キュ ー に 対応 し て いる 必要 が あり ます 。 

*3 LVM は 、 device_mapper の 複数 の 要 能 を 使用 する た め の 管理 ツー ル の 名 称 で す 。 カ ー ネ ル の 
櫻 能 と し て は 、 デ バイ ス と ブロ ッ ク 番号 を 別 の デバ イス と ブロ ッ ク 番 号 に マッ プ する 「dm-linear」、 ブ ロッ 
ク デ バイ ス を ミラ ー リ ング する 「dm_mirror」 、 シ ンプ ロビ ジョ ニン グ を 行う 「dm-thin] など が 該当 し ます 。 
ここ で は 、 ま と め て LVM と し て 紹介 し て いま す 。 

キネ 4 ほか で loop を 使っ て いる 場合 、 デ バイ ス フ ァ イル 名 は loop0 で な く 、「loop1」 や 「loop2] な ど に な 
る こと も あり ます 。 


の ー 


ー ネ ル の 仕組 み 


公平 が 配分 、 効 率 的 使用 、 Cgr 
OUuDp、 制 御 グ ルー フ 、 コン テ 
ナー、 サ ブシ ステ ム 、 コ ント ロ 
ー ラ ー、Docker、Namespa 
ce、SyStemd、cpuset、 
cpuacct、cpu、memory、bI 
kio、 libcroup、 ツリ ー 構 造 、 ユ 
ーー ザ ー ニ セッション 、 ユ ニッ トド 


Part6 で は リソー ス 制 御 に つい て 紹介 し ます 。 Linux カ ー ネ ル の リソー ス 制 御 に は 、CPU、 メモ リー、 
ディ スク I/O な どの 資源 (リソー ス ) の 公平 な 配分 と 、 そ れ ら リソー ス の 効率 的 な 利用 と いう ら つの 役目 が あり ます 。 


CPU、 メ モリ ー、 デ ィ ス ク 1I/O 
(入出 力 ) な どの 資源 (リソー ス ) 
を 無駄 な く 使 える よう に 制御 する こ 
と も 、Linux カー ネル の 重要 な 仕事 
で す 。 こ の リソー ス 制 御 に は 、 リ ソ 
ー ス の 公平 な 配分 と 効率 的 使用 と 
いう 主 に 2 つの 役目 が あり ます 

例え ば 、1 つ の CPU (また は CPU 
コア ) で 2 つの プロ セス を 実行 す < 
考え て み ま し ょ う 
順位 が な く 両 方 と も ひ た 
る よう な 処理 な ら 、CPU を 全 用 で き 
る 時 間 を 同じ よう に 割り 当て ま す 
し か し 、 片 方 は 急ぐ 処理 、 方 
は 時 間 が か か っ て も 2 ら 
前 者 に 多く の CPU の 使用 時 間 を 割 
り 当 て ます 。 こ れ が 、Linux カー ネ 
ル で の 公平 な リソー ス 配 分 で す 

も う 一 つの リソー ス の 効率 的 使 
用 で は 、 ハー ドウ エア の 利用 効率 3 
高め る 目的 で 多く の 処理 を 2 
た り 、 処 理 速 度 を 優先 
CPU 利用 時 間 や メモ リー 量 を 確保 
し た り し て いま す 。 そ の た め に カー 
ネル は 、 使 用 し て いる リソー ス の 各 
種 情報 を 収集 し ます 


リソー ス 制 御 の イ ンタ フェ ー ス 
リソー ス 制 御 は 、OS の 基本 的 な 
機能 で す 。Linux に は 、 リ ソー ス 制 


御 の た め の コ マン ド や シス テム コー 
ル が 用 意 き れ て いま す 。 プロセス 処 
理 の 優先 度 を 指定 する 「nice 
ンド (Par(2 で 紹介 ) や 「nic 
コー ル 、1/0 処理 の 優先 度 を 
指 jonicel コマ ンド や 「iopr 
jo_sell シス テム コー ル 、 リ ソー ス 
の 統計 情報 を 収集 する 「sarl」 コマ 
ンド 、 各 種 リソー ス の 上 限 を 指定 す 


る 「ulimitl コマ ン etrlimit 


ステ 


シス テム コー ル な ど 

カー ネル 2 の 陸 G 
うな コマ ンド や シフ ー ル に 加 
CPU や メモ リー な どの 異な る 
リソー ス を 統一 され た イン タフ ェ ー 
ス で 制御 する フレ ー ム ワー ク *[cgr 
oup] (また は cgroups) が 実装 され 
まし た 。cgroup は 「control group」 
(制御 グル ー プ ) の 意味 で 、 プ ロ セ 
ス を ツリ ー 構 造り の グ ルー プ に 分 類 
し 、 グ ルー プ 単 位 で リソー ス 制 御 の 
パラ メー ター を 設定 ・ 取 得する 機能 
を 提供 し ます 。 以 下 で は 、 こ の cgr 
oup に よる リソー ス 制 御 を 詳し く 説 
明 し ます 


Cgroup の 概要 

Partl 一 Part5 で 紹介 し て きた 
nux カー ネル の 各 機 能 で は 、 そ # 
れ が 管理 対象 と する リソー ス だ け を 


制御 し ます 

例え ば 、Part(2 の タス クス ケ ジ ュ 
ー ラ ー は タス ク へ の CPU 時 間 割 り 
当て 、 メモリー 管理 は プロ モス へ の 
メモ リー 割り 当て 、Parl3 の プロ ッ 
ク 層 に 属す る CFQ の 1I/O ス ケ ジ ュ 
ー ラ ー は プロ モス の 1/O 要 求 を 制御 
し ます 。Linux サー バー が 小 規模 で 
ある うち は 、 こ の よう な リソー ス ご 
と の タス ク か 、 プ ロ セ ス 単 位 の リ ソ 
ー ス 制御 で 十分 で し た ( 図 1 左 ) 

Linux サー バー が 多く の CPU、 大 
量 の メモ リー を 搭載 する よう に な る 
と 、 内 部 で 複数 の 仮想 的 な サ 
ー を 立ち 上 げ る 仕組 み が 登場 し まし 
た 。 CPU と メモ リー の リソー ス を 分 
割 し て プロ モス や 仮想 サー バー に 割 
り 当 て る カー ネル 用 の パッ チ * も 提 
供 さ れ ま し た 

また 、 コ ン テ ナ ー* 方 式 の 仮想 化 
に お いて 1 つの コン テナー を 構成 す 
る プロ モス 群 や 、 分散 処理 フレ ー ム 
ワー ク で 1 つの ジョ プ ブ を 実行 する プ 
ロ セ ス 群 に 対し て 、 ま と め て リソー 
ス を 制御 し た い 要 求 も あり まし た 
そこ で 、 最初 の パッ チ 作 成 者 で ある 
米 Google 社 が 中 心 と な り 、 新 し い 
リソー ス 制 御 の 仕組 み が Linux カー 
ネル に 導入 され まし た ( 図 1 右 )。 こ 
れ が 、 プ ロモ セス を グル ー プ 化し 、 そ 


ー バ 


の グル ー プ に 対し て CPU と メモ リ 
ー を 割り 当て る だ け で な く 、 任意 の 
リソー ス を 制御 さ で きる フレ ー ム ワー 
ク の cgrouD で す 。 な お 、cgroup が 
作成 ・ 管 理 す る プロ セス の グル ー プ 
も cgroup と 呼ば れ ま す 。 ま た グル 
ー プ の こと を 、 カ ー ネ ル 内 の デー タ 
構造 名 か ら 「 サ プシ ステ ム 」、 あ る 
い は リソー ス を 制御 する も の が 多い 
こと か ら 「 コ ント ロー ラー」 と 呼ぶ 
こと が あり ます 

最近 で は 、 オ ー プ ン ソ ー ス の コン 
テナー 管理 ツー ル 「Docker」 (htt 
ps//wwwr.docker.com/) を 中 心 に 、 
コン テナー が 次 の クラ ウド 技術 * と 
し て 注目 を 集め て いま す 
コン テナー は 、 namesDace* に よる 
名 前 空間 の 分 割 と 、cgroup に よる 
リソー ス 制 御 に よっ て 実現 され て い 
ます 。 リ ソー ス 制 御 は 、 コンテナー 
が リソー ス を 使い 過ぎ て 、 他 の コン 
テナー の 動作 を 妨げ な いよ うに し ま 
す ( 図 2) 

な お cgroup は 、systemd* の 導入 
に より 大 きく 変わ る と 予想 され て い 


Linux の 


表 1 各 cgroup の 名 前 と その 内 容 


I/O ス ケ ジ ュー ラー (た だ し 、 


CFQ の み ) 
cpu CPU スケ ジュ ー ラ ー 
cpuacct CPU 使用 時 間 の 統計 情報 
cpuset 。 CPU の 割り 当て 
device 。。 デバ イス へ の アク セス 権 
freezer ” プロ セス の 一 時 停止 再開 
memory メモ リー 割り 当て 
に namespace 用 (最近 の カー ネ 

ル で は 使わ れ て いな い ) 

パケ ッ ト ス ケ ジ ュ ー ラ ー に 渡す 
2 の 

性 能 解析 を 目的 と し た perf イ 


perf_event ペン ト の 収集 対象 と し て 指定 
する グル ー プ 名 


Ad リソー ス 制 御 


位 の リソー ス 制 御 cgroup に よる リソー ス 制 御 
CgrOuP 
プロ セス 
ゴー 設定 
ーー 設定 設定 
ーー 設定 


図 1 プロ セス 単位 と グル ー プ ご と の リソー ス 制 御 
cgroup で は 、 プ ロ セ ス を グル ー プ 化し 、 そ の グル ー プ に 対し て CPU と メモ リー を 割り 当て る だ け で な く 、 多 
様 を リソー ス を 制御 で きる 。 


コン テナー 1 の cgroup 


コン テナー 2 の cgroup 


50% 


最大 CPU 使用 率 
最大 メ G バ イト 


補 コ ン テ ナ ー 1 は 設定 を 超え 
て CPU と メモ リー を 使え な い 


図 2 cgroup に よる リソー ス 制 御 
コン テナー 1 と コン テナー 2 の よう な グル ー プ ご と に リソー ス を 細か く 制 御 で きる 。 


# cat /proc/mounts | grep cgroup ロ 
cgroup /cgroup/cpuset cgroup rw,.relat1me,cpuset 0 0 
Cc9roup /cgroup/cpu cgroup rw,relatime,cpu 00 


cgrouP /cgroup/cpuacct cgroup rw,relat1me,cpuacct 0 0 
cgroup /cgroup/memory cgroup rw,relatime ,memory 0 0 
(以下 、 人 省略) 


図 3 cgroup の イン タフ ェ ー ス 一 覧 
proc や sysfs の よう な ファ イル シス テム の イン タフ ェ ー ス だ 。 


ます 。systemd は 開発 途上 な の で 、 
以降 の cgroup の 具体 例 に は 、syst 
emd 導 入 以 前 の Cent(OS 6 を 用 いま 
す 。 こ の Part6 で は 、 emd が 導 
入 き れ た CentOS 7 を 基 に し て 、cgr 


oup が 将来 どの よう に 変化 する の か 
の 具体 例 を 紹介 し ます 


cgroup で 制御 する サブ シス テム 
cgrouD に は 、proc や sysIts の よう 


【 フ レー ム ワ ー ク 】 ある 要 能 を 実現 する た め の 土台 と な る ソフ トウ エア で す 。 

【 バ ッ チ 】 修正 を 適用 する プロ グラ ム で す 。 不 具合 の 修正 だ け で な く 、 機 能 追加 に も 利用 され ます 。 
ソー スコ ー ド に 適用 する パッ チ は 、 差 分 情報 が 書か れ た テキ スト ファ イル と し て 提供 され ます 。 

【 コ ン テ ナ ー】 Linux カ ー ネ ル で の コン テナー は 、 各 種 リソー ス を 詰め 込む た め の 仮想 的 な 容器 の こ 
と で す 。 プ ロ セ ス の 動作 に 必要 な リソー ス を コン テナー に 詰め 込む こと に よっ て 、 仮 想 的 な サー バー や 
PC を 構築 で きま す 。 

【 ク ラウ ド 技 術 】 イン ター ネッ ト 上 に ある シス テム の ハー ドウ エア や ソフ トウ エア を 手元 で 利用 する た め 
の サー ビス を [クラ ウド サー ビス ] と 呼び ます 。 そ の サー ビス を 提供 する シス テム に 使わ れ て いる 技術 が 
クラ ウド 技術 で す 。 

【namespace】 マウ ント 名 や ホス ト 名 、 プ ロ セス ID、 ユ ー ザ ー 名 、 ネ ットワーク デバ イス 名 な ど に 対し て 
独立 し た 空間 を 作成 する 機能 で す 。 こ れ に よっ て コン テナー ご と に 関連 する リソー スズ を 分離 で きま す 。 

【systemd】 Linux の シス テム 起動 ・ 終 了 と 、 各 種 サー ビス の 起動 停止 を 管理 する プロ グラ ム で す 。 
「Uni 上 l と いう 単位 で 起動 処理 を 分 苑 し 、 関 連 が な い 処 理 な ら 普 行 に 実行 し て シス テム 起動 を 早く し 
ます 。 従 来 か ら 利用 され で いた Init や Upstat と は 、 多 く の 面 で 異な り ます 。CentOS、Fedora、SUSE 
な ど 多 く の デ ィ ス トリ ビュ ーション が 採用 し 、Debian と Ubuntu も 採用 予定 で す 。 


$ cat /proc/cgroups ロ 
#subsys_name hierarchy 
cpuset 1 

ns り 
CPU 2 
cpuacct 3 
memory 4 
devfces 5 
freezer 6 
net_cls 7 
blkio 8 
perf_event り 
net_pr1o 0 


図 4 cgroup の 一 覧 
「cpusetl や 「memory] な どの cgroup が 使え る 。 


な ファ イル シス テム の イン タフ ェ ー 
ス が 用 意 き され て いま す 。 後述 する 手 
順 で cgroup を 管理 する 「cgconfigl 
サー ビス を 起動 する と 、「/proc/mo 
unt] フ ァイル か ら こ の イン タフ ェ ー 
ス を 一 覧 で きま す ( 図 3) 

現在 使用 し て いる カー ネル で 使 
える cgrouDp の サブ プ シ ステ ム 一 覧 は 、 
「/proc/cgroups] フ ァイル に 記述 き 
れ て いま す ( 図 4)。 各 cgroup の 名 
前 と その 内 容 を 表 1 に 示し まし た 
リソー メス 制御 以外 の 機能 を 提供 す 
る 「device」 「freezer」 「peri_eve 
ntl の よう な cgroup も あり ます 

で は 、 リ ソー ス 制 御 に 関す る も の 
の 機能 を 少し 紹介 し まし ょ う 


(1) cpuset 

cpuset に は 、 タ スク を 実行 する 
CPU、 メ モリ ー を 割り 当て る ノー ド 
を 指定 し ます 。 指定 し た CPU に プ 
ロモ ス を 割り 当て る 「tasksetl コマ 
ンド や 、 合 用 する CPU と メモ リー 
を 指定 する 「numactl] コマ ンド の 
cgroup 版 で す 。CPU と メモ リー を 
占有 させ て 安定 し た 性 能 を 得る 、 多 
く の CPU コ ア と メモ リー を 搭載 す 
る サー バー を 用 いた シス テム で CPU 
負荷 分 散 の オー バー ヘッ ド を 抑制 
する な どの 目的 で 使用 し ます 。 


num_cgrouPs 


の 仕組 み 
トン / 


enab1ed 


ルー ト を /cgroup に マウ ント す 
る と この cgroup に は /cgroup/ 
foo/hoge で アク セス で きる 


図 5 cgroup の ツリ ー 構 千 
特に 指定 し な けれ ば 、 プ ロ セ ス が 所 属す る グル ー プ は 親 プ ロ セ ス と 同じ に な る 。 


(2) cpuacct と cpu 

cpuacct で は 、CPU を 使用 し た 
時 間 の 統計 情報 を 取得 し ます 。 cpu 
に は 、 ス ケ ジ ュ ー ラ ー が 使う 重み 、 
CPU 使用 率 の 上 限 を 設定 し ます 
cpDu の 重み 設定 は 、nice コ マン ド の 
cgroup 版 で す 

タス クス ケ ジ ュ ー ラ ー に 関連 する 
cgrouD で は 、cpuacct と cpu と し て 
統計 情報 と リソー ス 人 制御 を 別々 に 
扱い ます 。 こ の 2 つ は と も に 、 タ ス 
クス ケ ジ ュ ー ラ ー の 中 に 実装 きれ て 
いま す 。 別 の cgroup で な けれ ば な ら 
な い 理 由 は な く 、 将 来 は 1 つ に 統合 
され る 可能 性 が あり ます 。CentOS 
7 で は 、cpu と cpuacct を 同じ ディ レ 
クト リー に マウ ント し て いま す . 


(3) memory 

memory に は 、 主 に 、 物理 メモ リ 
ー の 使用 量 の 上 限 を 設定 し ます 。 ま 
た 、cgroup ご と に 「/proc/memin 
fo] ファ イル 内 の 中 身 の よ うな 統計 
情報 を 取得 し ます 


(4) blkio 
blkio に は 、I/O ス ケ ジ デューラー が 
使用 する パラ メー ター や ディ スク 1I/ 


0 常 域 の 上 限 を 設定 し ます 。 ま た 、 
ディ スク 1/O の 統計 情報 を 取得 し ま 
す 。blkio は 、I/O ひ スケジュー ラー の 
うち CFQ だ け に 実装 され て いま す 。 
従っ て 、deadline や noop を 1/O ス 
ケ ジ ュ ー ラ ー と し て 指定 し た ディ ス 
ク に は 、 使 用 で きま せん 。 


リソー ス 制 御 の グ ルー ブ 

cgrouD で は 、 階 層 化 きれ た ディ レ 
クト リー の よう に 、 ル ー ト (/) を 
根 と する ツリ ー 構 造 で プロ モス を グ 
ルー プ に 分 け ま す ( 図 5)。 特に 指定 
し な けれ ば 、 プロ モス が 所 属す る グ 
ルー プ は 親 プ ロ セ ス と 同じ で す 。 初 
期 状態 (デフォルト) の グル ー プ は 
ルー ト で す 

グル ー プ ご と に 、 情 報 収 集 や 設定 
を 行え ます 。 例 えば 、1 つ の サー ビ 
ス に 関連 する すべ て の プロ セス を 1 
つの グル ー プ に 所 属さ せれ ば 、1 カ 
所 で サー ビス の 情報 収集 と 設定 を 
実施 で きま す 。 

今 の と ころ 、cgroup は 和 柔軟 性 を 
重視 し 、 リ ソー ス ご と に 異な る ツリ 
ー を 作れ る よう に な っ て いま す 。 し 
か し 、 モ キュ リティ 面 の 課題 を 主 な 
理由 と し て 、cgroup の メン テナー* 


「cgroup 所 属 ] を 


図 6 所 属 グル ー プ の 確認 
プロ セス ID は 、ps コ マン ド で 調べ る 。 


か ら 将 来 は 全 リ ソー ス が 同一 の ツリ 
ー し か 扱え な いよ うに する 計画 が 示 
きれ て いま す 

プロ セス の 所 属 グ ルー プ は 、 
の よう に 実行 する と 確認 で きま す 
プロ モス ID は 、ps コマ ンド な ど で 
確認 し て くだ さい 


1 


CgrOuD を 作っ て みよ う 
グル ー プ の 作成 や 削除 は ディ レク 
トリ ー の 作成 や 削除 の 操作 で 、 統 計 
情報 の 取得 や 各種 パラ メー ター の 設 
定 は ファ イル の 読み 書き 操作 で 行え 
ます 。 ま た 、CentOS な ど に 含ま れ 
る 「ibcgroup] (また は libcgroup- 


tools) パッ ケー ジ に は 、cgroup を 操 
作 す る た め の コ マン ド が 用 意 き れ て 
いま す ( 表 2) 

cgrouD を 有効 に する に は 、 計 
rouD パ ッ ケ ー ジ を イン スト ー ル 
0 


cgconfig サ ービス を 立ち 


# yum fnsta1] 1ibcgroup ロ 
# chkconfig cgconffig on 器 
# service cgconfig start 器 


で は 、cgroup を 作成 し て み ま し ょ 
う 。 ル ー ト と は 別に 、 タ スク スケ ジ 
ュー ラー の リソー ス を 制御 する 「te 
stl の 新しい グル ー プ を 作り ます 

まず は 、cgrouDp の イン タフ ェ ー 
ス に 直接 アタ セス し ます 。 次 の よう 
に 「/cgroup/cpul ディ レク トリ ー 


ファ イル を 読む 
ファ イル に 書く 


cat /proc/$$/cgroup ロ 
:b1kio:/ 


:devices:/ 
:memory:/ 


:cpuacct:/ 
:cpu:/test 
:cpuset:/ 


図 7 シェ ル の 所 属 グ ルー プ を 調べ る 
[SS$」 は 変数 で 、 シ ェ ル 自身 の プロ セス ID が 代入 さ 
れる 。 


以下 に 「test] ディ レク トリ ー を 作 
り ま す 。 こ れ で test グ ルー プ が 作成 
きれ まし た 


# cd /cgroup/cpu 器 
# mkdfr test 中 


次 の コマ ンド で 、 現在 コマ ンド を 
実行 し て いる シェ ル を test グ ルー プ 
に 所 属さ きせ ます 。 「$5$」 は 変数 で あ 
り 、 シ ェ ル 自身 の プロ モス ID が 代 
入 さ れ ま す 


# echo $3 > test/tasks ロ 


この よう に プロ セス ID を 「tasks」 
ファ イル に 書き 込む だ け で 、 グ ルー 
プ の 所 属 を 変更 で きま す 
> が 所 属し て いる グル ー プ を 
確認 し ます ( 図 7)。cpu の 箇所 が 
「/test] に な っ て いま す . 

libcgroup の コマ ンド を 使う と 、 今 

で の 操作 は 図 8 に 示し た 3 つの コ 
マン ド で 実行 で きま す 

ちな み に 、 作っ た グル ー プ を 削除 
する に は 、 所 属し て いる グル ー プ を 


シェ ル 


ディ レク トリ ー 作 成 
ディ レク トリ ー 削 除 


「tasks] に プロ セス ID (PID) を 書く 


リソー ス 制 御 


cgcreate 
Cgdelete 
Cgget 
cgset 
cgclassify 

# cgcreate -q cpu:/test 品 


cgc1ass1fy -g cpu:/test 3$ ロ 
cat /proc/$$/cgroup ロ 


1:cpuset:/ 


図 8 libcgroup の コマ ンド に よる 操作 
同じ よう に cpu だ け を test グ ルー プ に 所 属さ せ た 。 


ルー ト に 大 し て 、 作成 し た ディ レク 
トリ ー を 消し ます 


# echo $$ > tasks 器 
# rm -rf test 器 


jibcgroup の コマ ンド で は 、 次 の 
よう に 実行 し ます 


# cgclassffy -g cpui/ 33 ロ 
# cgdelete cpu:/test ロ 


cgroup で CPU 使用 率 を 制御 する 

「testl] グル ー プ を 作成 し 、 こ の 
グル ー プ に 所 属す る 「yes] プロ モ 
ス と し て CPU を ひたすら 使い 続け 
る コマ ンド を 生成 し ます 。 こ こ で は 、 
jibcgroup の コマ ンド を 使い まし た 。 


# cgcreate -g cpu:/test1 器 
# cgexec -9 CcPu:/test1 yes > / 


【 メ ン テ ナ ー】 ソフ トウ エア 、 ま た は それ を 構 
成す る サブ シス テム の ソー スコ ー ド を 管理 する 
人 で す 。 不 具合 修正 や 新 機能 追加 の パッ チ 
を 採用 する 権限 を 有 し て いま す 。 


root 7552 0.0 0.0 107464 


「yes] プ ロ セス の CPU 使用 率 
100% 近 くに な る 。 


#free 器 


total 
Me 1912488 
-/+ buffers/cache: 352156 
SWwap: 4095992 0 


図 10 メモ リー の 使用 


544 pts/2  R 
912 pts/2 。 S+ 


free shared 
1464052 0 280 
1560332 
4095992 


13:20 
13:21 


1:01 yes] 


0:00 grep yes 


buffers cached 


96000 


量 
ペー ジ キ ャ ッシュ を クリ アー し た ば か りな の で 、 使 用 し て いる メモ リー が 必要 な 分 だ け に な っ た 。 


#free 器 
total 
Mem: 1912488 
-/+ buffers/cache: 352228 
Swap: 4095992 0 


1460588 384 
1560260 
4095992 


buffers cached 


99288 


図 11 ファ イル を 読み 込ま せ た 後 の メモ リー 使用 量 
メモ リー 使用 量 を 制限 し て いる の で 、 大 き な フ ァイル を 読ん で も ファ イル の 大 き さ ま で は 使用 量 が 増え な い 。 


total used 

1912488 
-/+ buffers/cache: 351916 
Swapi 4095992 0 


# free 器 

total 
Me 1912488 
-/+ buffers/cache: 


351004 
Swap: 4095992 0 


free shared 
1464300 0 272 
1560572 
4095992 
# cat /boot/1nitramfs* > /dev/null 器 


グーfree shared buffers 


1427240 0 1160 
1561484 
4095992 


buffers cached 


96000 


cached 
133084 


図 12 ファ イル を 読み 込ま せ た 後 の メ モリ ー 使 用 量 


先ほど に 比べ て メモ リー 使用 量 が 大 きく 増え て いる 。 


dev/nul1l & 器 


「yes] プロ モス の CPU 使用 率 は 、 
100% 近 くに な り ます ( 図 9) 


# ps auxw | grep yes 器 


testl グ ルー プ の CPU 使用 率 に 
50% の 上 限 を 設定 し ます 。 分 子 (cpu. 
cfS_quota_us) と 分 母 (cpu.cfs_pe 
riod_us) の 2 つの 設定 が 必要 で す 


# cgset -r cpu.cfs_quota_us-50 
000 /test1 ロロ 


# cgset -r cpu.cfs_per1od_us=1 
00000 /testl 器 


「ps] コマ ンド を 実行 する た びに 、 
CPU 使用 率 が 下がっ て いく の が 分 
か り ま す 。 最終 的 に は 、50% 以 下 に 
収まり ます 

確認 が 終わ っ た ら 、「kill コマ ン 
ド を 使っ て yes プロ セス を 終了 させ 
て か ら 、 作 成 し た グル ー プ を 削除 し 
ます 


を kf11 yes の プロ セス ID ロ 
# cgdelete cpu:/test1 ロ 


CgrOuD で メモ リー 使用 量 を 制限 する 


今度 は 、 メ モリ ー 割 り 当て を 制御 
する 「test2] グル ー プ を 作成 し 、 実 
行 中 の シェ ル を その グル ー プ に 所 属 
きせ ます 。cgroup の イン タフ ェ ー 
ス に 直接 アク セス する 場合 、 次 の よ 
うに 実行 し ます 


# cd /cgroup/memory 器 
# mkdir test2 ロロ 
# echo $$ > test2/tasks 回 


この グル ー プ の メモ リー 使用 量 を 
4M バイ ト に 制限 し ます 


# echo 4M > test2/memory.11m1t 
-fn_bytes ロ 


次 の コマ ンド で ペー ジ キ ャ 
を クリ アー し ます 


# echo 3 > /proc/sys/vm/drop_c 
aches 器 


メモ リー の 使用 量 を 確認 し ます 
( 図 10) キャ ッシュ を クリ ア 
ー し た ば か りな の で 、 使用 し て いる 
メモ リー が 最低 限 必要 な 分 だ け に 
な り ま し た 

大 き な フ ァイル を 読み 込み ます 


ペー マメ 


# 1s -1 /boot/1nitramfsx 回 
# cat /boot/jnftramfs* > /dev/ 
null 器 


メモ リー の 使用 量 を 確認 し ます 
( 図 11)。 この ダル ー プ で は メモ リー 
使用 量 が 制限 きれ て いる の で 、 大 き 
な ファ イル を 読み 込ん で も 使用 量 が 


# cat /proc/mounts | grep cgroup 器 
tmpfs /sys/fs/cgroup tmpfs rw 


で Oroup /sys/fs/cgroup/cpuset coroup rw.nosui 
Cc9roup /sys/fs/cgrouP/cPU,CPuacct cgrouP rw,noSu1d,nodev,noexec ,relatime,cpuacct,cpu 0 0 
Cgroup /sys/fs/cgroup/memory CgroUP rw.nosu1d,nodev,noexec,relat1me,memory 0 0 


(以下 、 省 略 ) 
図 13 systemd に 対応 する cgroup 


専用 の ファ イル シス テム が イン タフ ェ ー ス と し て 追加 され て いる 。 


$ systemd-cgls ロ 
ト 一 1 /usr/11b/systemd/systemd 
--deser1a11ze 23 
トーuser.slfce 
| 一 user-1000.s11ce 

一 sesston-1.scope 


--switched-root 


--system 


トー12361 gdm-sess1on-worker [pam/gdm-password] 


1 
1 
1 トー12374 /usr/b1n/gnome-keyring-daemon 
1 


--daemon1ze --login 


トー12377 gnome-session --session gnome-classic 


1 トー13035 bash 

1 一 48498 systemd-cg1s 

し 一 system.s1fce 
トーsystemd-hostnamed.service 


| ! 一 48410 /usr/11b/systemd/systemd-hostnamed 


トーudisks2.service 


| ト 一 12631 /usr/11b/ud1sks2/udfsksd 


トーbluetooth.service 
| ー12622 /usr/sbin/bluetoothd 
(以下 、 省 略 ) 


図 14 systemd 上 で の cgroup の 操作 
CentOS 7 上 で グル ー プ を 表示 させ た 例 。 


あま り 増 えま せん 
シェ ル の 所 属 グ ルー プ を ルー ト に 
戻し ます 。 


# echo $$ > tasks 品 


も う 一度 大 き な ファ イル を 読み 込 
み 、 空き メモ リー を 確認 し ます ( 図 
12) 。 今度 は 、 読 み 込 ん だ ファ イル 
の サイ ズ に 相当 する だ け メ モリ ー の 
使用 量 が 増え て いま す 。 

- 連 の 操作 が 終わ っ た ら 、 作成 し 
た グル ー プ を 削除 し て くだ さい 。 


--no-debug 


-n 


まき rmdfr test2 器 


Systemd 上 で の cgroup 
systemd の 導入 に 伴い 、cgroup 
大 きく 変わ りつ つ あ り ま す 。 持 
来 、cgroup の 操作 は systemd を 介 
し て 行う よう に な り ま す 。 フ ァイル 
シス テム の イン タフ ェ ー ス を 直接 操 
作 す る こと や 、libcgroup の コマ ン 
ド に よる cgroup の 作成 、 削 除 、 パ 
ラメ ー タ ー 参 照 ・ 設 定 は 禁止 きれ る 
予定 で す 。systemd に 対応 する Cen 
{OS 7 で は 、 図 13 の よう に systemd 


リソー ス 制 御 


の た め の イ ンタ フェ ー ス が 追加 され 
て いま す 

systemd で は 、 サ ービス と ユー ザ 
ー モ セッ ショ ン * に 対応 し た cgroup の 
ッ リ ー 構 造 を 作 
CentOS 7 上 で グル ー プ を 表示 きせ 
た 例 で す 。 ユ ー ザ ー の セッ ショ ン は 
1 つの グル ー プ に 、systemd が 起動 
し た サー ビス は サー ビス ご と の グル 
ー プ に 所 属し ます 

「systemd-runl コマ ンド で 、 引 
数 に 指定 し た ユニ ッ ト \ 名 に 対応 す 
る グル ー プ を 有効 に し ます 。 一 時 的 
な ユニ ッ ト も 作成 可能 で す 。 

また 、 次 の コマ ンド で サー ビス な 
どの ユニ ッ ト 別 の グル ー プ に 一 部 の 
パラ メー ター を 設定 で きま す 。Cen 
tOS 7 で は 、 CPU スケ ジュ ー ラ ー の 
重み 、 物 理 メ モリ ー 使 用 量 の 上 限 な 
ど 属 性 の パラ メー ター が 設定 可能 
で す 


# systemct] set-property ユニ ッ 
ト 名 属性 - 値 … ロ 


【 ユ ー ザ ー セ ッ シ ョ ン 】 ユー ザー が ログ イン し 
て か ら ロ グ ア ウト する まで の 間 の こと で す 。 

【 ユ ニッ ト 】 systemd の 負 理 の 単位 で す 。 マ 
ウン ト を 実行 する [mount」、 ソ ケッ ト を 作成 する 
「socketl]、 デ バイ ス に 対応 する 「device] 、 
サー ビス を 実行 する 「service」、 こ れ ら を 組み 
合わ せ た 状態 に 対応 する 「target] な ど が あり 
ます 。 
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知っ て お きた い 
カー ネル の 技術 


カー ネル に は さま ざま な 技術 が 使わ れ て いま す 。 
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大 容量 


成 で きま す 。 スナ ッ プ ショ ッ ト 機 能 も 併せ て 強化 され ます 。 


活用 する と 、 装 備 す る 物理 ディ ス 
ク の 容量 を 小さ く 抑え られ ます 。 ま 
(ns 装備 し ae ス 
( 別 の ボリ ュー ム を 
し て ) 有効 活用 する 目 
的 に も 使用 で きま す 

多く の ユー ザー は 、 デ ィ ス ク の 容 
量 不足 が 生じ 
り 、 必 要 以 上 の 容 
を 装備 する 傾向 に あり ます 


シン プロ ビジ ョ ニン グ (Thin Pr 
う 技 術 が 注目 され 
物理 ディ スク の 容量 を 仮 


ovisioning) と い 


て いま す 


技術 で す 


“きる よう 

これ を 利用 する 
バイ ト の HDD し か な ゆい 環境 で 10T 
パイ ト の ポ ー ム を 作成 し た り 、 
2T バ イト の ボ 複数 作成 
し た りす る と い ゆ - が 可能 に 
な り ま す 

物理 ディ スク 以上 の 容量 の ポリ 
ュー ム を 作成 し て 運用 で きる の は 、 
(1) 多く の 場合 、 ま ボリューム の ご 
く 一 部 の 領域 し か 実際 に は 使わ れ 
な い 、(2) 全 デ ー タ が 0 の プロ ッ ク 
の よう に 実 プ ブロック を 割り 当て ず 
に 済 な ケー ス が ある 、(3) 複数 の 
ボリ ュー ム が 同じ プロ ッ ク を 参照 
ケー ス が ある 、 と いっ た 理由 か 


リュ ー ム を 


その た 
め 、 か な り の 空き 容量 が 常時 存在 す 


る の が 普通 で す 


dm (device mapper) で 対応 

2012 年 1 月 リリ ー ス の カー ネル 32 
に は 、 こ の シン プロ ビジ ョ ニン グ 対 
応 機能 が 盛り 込ま れ ま し た 。 対応 は 
dm (device mapper) サ プ シ ステ 
れ ED *1 


シン プロ ビジ ョ ニン グ を うま く で す 。 管理 用 の メタ デー タ を 格納 
デー タデ バイ ス よ り も 容量 。 仮想 が リュ ー ム 仮想 が リ ュー ム の スナ ッ プ 
の 大 き な 仮想 ポリ ュー ム ショ ッ ト も 作成 で きる 


は 作成 能 


xs ーー 


dm サブ システム 
pool デ バイ ス 


管 を 格納 
する 物理 ディ スク 


メタ デー タデ バイ ス データ デバ イス 


図 1 dm サブ シス テム の シン プロ ビジ ョ ニン グ 機 能 

管理 用 の メタ デー タ を 格納 する 「 メ タデ ー タ デパ バ イス] と 実 デー タ を 格納 する 「 デ ー タ デバ イス 」 を セッ ト に 
し た 「pool デ バイ ス 」 を 用 写し て お け ば 、 そ の pool デ バイ ス 上 に 任意 の 個数 の 仮想 ボリ ュー ム や スナ ッ プ シ 
ョ ッ ト を 作成 で きる 。 仮 想 ボ リュ ー ム に は 任意 の 容量 を 設定 可能 。 


反 想 ボリ ュー ム を 作成 可能 


dm (device mapper) の 拡張 機能 で す 。 物理 ディ スク の 容量 に 縛ら れず に 、 自 由 な 容量 の ポリ ュー ム を 任意 の 個数 作 


する 「 メ タデ ー タ デパ イス ]」 と 実 デ 
ー タ を 格納 する 「 デ ー タ デバ イス ]」 
を セット に し た 「pool デ パイ ス 」 を 
用 意 し て お き 、 そ の pool デ バイ ス 
上 に 仮想 ボリ ュー ム を 作成 する と 
いう 仕組 みか に な っ て いま す 。 仮想 ボ 
リュ ー ム は 通常 の ディ スク と 同様 
に 使用 で きま す 

また pool デ パイ ス 上 に は 、 仮 想 
ボリューム の ある 時 点 の 状態 を 保 
存 し た 「 ス ナッ プシ ョ ッ ト 」 も 作 
成 可能 で す 。 シン プロ ビジ ョ ニン グ 
機能 に た お ける スナ ッ プ ショ ッ ト は 、 
dm サ プ シ ステ ム が これ まで 提供 し 
て きた スナ ッ プ ショ ッ ト に 比べ て 
柔軟 性 が 高く な っ て いま す 。 単 一 の 
メタ デー タデ バイ ス 上 に 複数 の ス 
ナッ プシ ョ ッ ト を 作成 で きる よう 
に な っ て いま すし 、 ス ナッ プシ ョ ッ 
ト の 入れ 子 (スナ ッ プ ショ ッ ト に 対 
する スナ ッ プ ショ ッ ト の 作成 ) に も 
対応 し て いま す 


仮想 ボリ ュー ム の 作成 手順 
pool デ パイ ス と 仮想 ボリ ュー ム 
E dmsetup] 
行 し ます *? 


*1 2009 年 5 月 以降 の dm サブ シス テム 
で は 、LVM (Logical Volume Manager) 
櫻 橋 に お いて [-virtualsize]」 オ プシ ョ ン を 
使う こと で 物理 ボリ ュー ム 以 上 の 容量 の 論 
理 ポ ボリューム を 作成 で きま す 。 こ れ も シ ンプ ロ 
ビジ ョ ニン グ 機 能 に 相当 し ます が 、 カ ー ネ ル 
3.2 に 盛り 込ま れ た の は より 和 柔軟 性 の ある 仕 
組み で す 。 


還 pool デ バイ ス の 作成 
$ sudo dmsetup create pool 


玉 仮 想 ポ ボリ ュー ム の 作成 


pool デ バイ ス の 最大 セク ター 数 


--table “067772161thin-poo1 1/dev/sdcM/dev/sdd1024 128" ロ 


メタ デー タデ バイ ス 


$ sudo dmsetup message /dev/mapper/pool 0 "create_thin 0" 器 


* sudo dmsetup create thin -- 
* sudo dmsetup status ロ 
th1n: 0 167772160 th1n 0 - 


罰 仮 想 ポ リュ ー ム の 使用 例 


$ sudo mkfs 


table "0 [167772160]thtn /dev/mapper/poo1 0" ロ 


仮想 ボリ ュー ム の 最大 セク ター 数 


poo1: 0 16777216 thtn-poo] 0 43/524288 0/16384 - 


-t ext4 /dev/mapper/th1n ロロ 


$ sudo mount /dev/mapper/thin /mnt 器 


df -h 
ファ イル 
(中 略 ) 

7dev7mapper/thtn 806 


サイ ズ 使用 残り 使用 % マ 


80G バ イト の 仮想 


756 2% 。 /mnt 


図 2 pool デ バイ ス や 仮想 ボリ ュー ム の 作成 手順 
8G パ イト の デー タデ バイ ス を 登録 し た pool デ パイ ス 上 に 80G バ イト の 「hin] と いう 名 前 の 仮想 ボリ ュー ム を 作成 し た 例 。 物 理 ディ スク の 10 倍 の 容量 を 指定 し た に 
も か か わら ず 、 仮 想 ま リューム に ファ イル シス テム を 作成 し て 、 通 常 の ア ィ スク と 同様 に マウ ント し て 使用 で きる こと が 分 か る 。 


各 プ ー ル デバ イス は 24 ビ ッ ト 
長 の ID で 識別 し ます 。 図 2 の 例 

で は ID に 「0] を 設定 し 、 メ タ 
デー タデ バイ ス に 2G バ イト の 
HDD、 デ ー タ デバ イス に 8G パ イ 
ト の HDD を 割り 当て て いま す *3 
メタ デー タデ バイ ス に は 、 デ ー タ デ 
パイ ス よ り 小 さい 物理 ディ スク を 
割り 当て て 構い ませ ん 。 カ ー ネ ル 
32 の 時 点 で は メタ デー タデ バイ ス 
の 最大 サイ ズ は 16G バ イト に 制限 き 
ENAR この 制限 は 今後 な く 
な る 見 通し で 

図 2 の 例 で は 、80G パ イト の 「th 
in と いう 名 前 の 仮想 ボリ ュー ム を 
作成 し て いま す 。 物 理 ディ スク の 
10 倍 の 容量 を 指定 し た に も か か ね わ 
ら ず 、 仮 想 ボ リュ ー ム に ファ イル シ 


ステ ム を 作成 し て 、 通 常 の ディ スク 
と 同様 に マウ ント し て 使用 で きる 
こと が 分 か り ま す 


論理 ポリ ュー ム を 指定 可能 


シス テム で 使用 す 
の 容量 設計 が 不要 に 
ンプ ロビ ジョ ニン グ の メリ ッ ト を 
十分 に 生か す に は 、pool デ バイス に 
任意 の タイ ミン グ で デー タデ バイ 
ス や メタ デー タデ バイ ス を 追加 し 
た り 、 よ り 大 き な 人 容量 の 物理 ディ ス 
ク に 交換 する 機能 が 必要 で す 

dm サ プ シ ステ ム の LVM 機 能 を 
使え を ば こう し た 操作 が 可能 に な り 
ます 。pool デ バイ ス の メタ デー タ 
デバ イス や デー タデ バイ ス と し て 
LVM が 提供 する 論理 ボリ ュー ム を 


る スト レー ジ 


な る と いう シ 


が 使用 で き て いる 


品 こ の マー ク で 改行 


指定 すれ ば 、 論 理 ボ ポリ ュー ム に 割り 
リュ ー ム を 任意 の タ 

で 追加 ・ 変 更 で きま す *# 

この 構成 は 、 ス トレ ー ジ の 

仮想 化 層 が 複数 に な る た め 冗 長 感 
が あり ます 。 より 分 か りや すい スト 
レー ジ 管 理 を 実現 する に は 、 例 え 
ば 、pool デ パイ ス と LVM の ボリ ュ 
ー ム グル ー プ を 統 
サナ プシ ステ 
り そ う で す 


合 す る な ど 、dm 
ム の 再 設計 が 必要 に な 


*2 詳し く は カー ネル の 付属 文書 [Do 
cumentation/device-mapper/thin- 
provisioning.txt」 を 参照 し て くだ さい 。 

*3 テス ト は 仮想 化 ソ フト 上 で 実施 し て いま 
す 。 各 HDD は 仮想 ディ スク で す 。 

*4 Fedora 16 と カー ネル 3.2-rc2 を 組み 
合わ せ た 環 境 で 短 時 間 の テス ト を し まし た が 、 
問題 な く 動作 し まし た 。 


ッッ ン 
ジジ の 


procfs の hidepid オプ ショ ン 


/proc/PID 情報 を 隠蔽 


procfs に 追加 され る マウ ント オブ プション で す 。「1」 また は 「2」 を 設定 する と 、 実行 中 の プロ セス 情報 を 提供 する /pr 
oc/PID デ ィ レ クト リー へ の アク セス を 制限 で きま す 。 


に lu 


Linux な どの UNIX 系 OS は 、「pr 
ocfS] と いう プロ セス 情報 アク モス 用 
の 疑似 ファ イル シス テム を 備え て 
いま す 。procfs は 通常 、「/proc」 デ 
ィ レ クト リー に マウ ント され ます 

この /proc デ ィ レ クト リー に は 、 
稼働 中 の プロ モス ID (PID) を 名 
前 に 持つ ディ レク トリ ー が 配置 き 
れ ま す (以下 、 こ れ を /proc/PID 
ディ レク トリ ー と し ます )。/proc/ 
PID ディ レク トリ ー に は 、 そ の プロ 
セス の 設定 や 状態 を 示す ファ イル 
群 が 格納 され ます 。 例 えば 、 プ ロモ 
ス ID が 「1| の /sbin/init プ ログ ラ 
ム の 場合 は 、 /proc/1 デ ィ レ クト リ 
ー に ファ イル 群 が 格納 され ます 

従来 、/proc/PID デ ィ レ クト リー 

D り 中 の ファ イル 群 は 、 基 本 的 に 

誰 で も 閲覧 で きる 設定 に な っ て い 
まし た 。 そ の た め 、ps コ マン ド な 


gksu に キー 入力 する と 
「(KEY PRESSED)] と 


表示 され る 


(keY pREsE: 


シス テム 監視 ウー ル を 一 般 ユ 
ー ザ ー 権 限 で 稼働 させ た 場合 で も 、 
シス テム の 全 プ ロモ セス の 情報 を 取 
得 で き て いま し た 


セキ ュ リ ティ ホー ル の 温床 
/proc/PID デ ィ レ クト リー を 通 
じ て 誰 で も 稼働 中 の すべ て の プロ 
セス 情報 を 取得 で きる の は 、 モ キュ 
リティ 的 に は 望ま し い 状態 で は あ 
り ま せん 。 何ら か の 形 で 侵入 し て き 
た 攻撃 者 に シス テム の 動作 状態 を 
て な る 攻撃 の 手 掛 か 


本 を 可能 に する ファ イル に は 、 
例え ば 、 プ ロ セ ス の スケ ジュ ー リ 
ング 関連 情報 を 公開 する 「/proc/ 
PID/sched] ファ イル が あり ます 


この ファ イル に は 「se.exec_start 


[sample] と いう ユー ザー 
権限 で 実行 中 の gksu 


マウ スポ イン 
ター の 移動 な 
ど に よっ て も 
gksu は 実行 状 
恒 に 運 移す 
る 。 そ れ ら の イ 
ペン ト を キー 
スカ と 過 検知 
する ケー ス が 
ある た め 、 入 力 
し た 文字 数 と 
キー 入力 の 検 
知 委 が 一 致し 
て いな い 。 


図 1 /proc/PID/sched フ ァイル の 情報 に よる キー 入力 検知 


GUI 版 su コマ ンド の 「gksul に キー 入力 が あっ た か どう か を 検知 
と gksu は 別 ユー ザー 権限 で 実行 し て いる 。gksu の パス ワー ド 入力 


クリ プ ト が [(KEY PRESSED)] と 表示 する 。 


る スク リプ ト の 実行 例 。 ス クリ プ ト 
キー 入力 する と 、 そ れ に 合わ せ て ス 


ス の 前 回 の 実行 開始 時 刻 が 示さ 
で いま す 。 この 情報 の 変化 を 調べ る 
こと で 、 プ ロ セ ス へ の キー 入力 内 容 
を 推測 され る 危険 が ある の で す 

ユー ザー か ら の キー 入力 を 待ち 
受け る プロ セス は 大 部 分 の 時 間 を 
待機 状態 で 過 
ー 入 力 に よ 生じ る 割り 込み 信 
号 な ど に よっ て 実行 状 問 に 般 移 し 、 
必要 な 処理 を し て か ら ま た 待機 状 
に 戻り ます 。 こ うし た プロ セス の 
状 胡 邊 移 に か か る 時 間 は 処理 内 容 
次 第 で 変わ り ま す 。 逆 に いえ ば 、 状 
態 邊 移 に か か る 時 間 を 調べ る こと 
で 処理 内 容 を 類推 で きる わけ で す 
具体 的 に は 、「se.exec_startl 情報 
を 定期 的 に 調べ て 、 キ ー 入 力 の 場合 
と 同じ 間隔 で プロ モス が 実行 状態 
に 人 移し て いれ ば キー 入力 が あっ 
た と 判断 で きま す 

これ を 実 る スク リプ ト *1 が 
公開 され て お り 、 こ れ を 使う と GUI 
版 の su コマ ンド 「gksul に キー 入 
カ が あっ た か どう か を 調べ られ ま 
す ( 図 1)。 こ の 実証 スク リプ ト に 
は キー 入力 を 検知 する 機能 し か あ 
り ま せん が 、 キ ー 入 力 間隔 を 統計 
分 析 す れ ば 入力 文字 列 を ある 程度 
推測 で きる こと が 分 か っ て いま す 
スク リプ ト を 拡張 する こと で パス 


*1 実証 スク リプ ト は 「http://wwwope 
nwall.com/lists/oss-security/2011/11 
/05/3] な どか ら 入 手 で きま す 。 内 容 を 調べ る 
と 分 か り ま す が 、 実 に 簡単 な スク リプ ト で す 。 


N グー 


ワー ド 解 析 な ども 可能 に な り ま す 
/proc/PID を アク セス 不可 に 

同様 の 危険 は 、 他 の /proc/PID 
ディ レク トリ ー 配 下 の フ ァイル に 
も 存在 する 恐れ が あり ます 。 危険 
性 を な くす 、/proc/PID ディ 
レク トリ ー に 何ら か の アク セス 制 
限 を 課す 必要 が あり ます 

まず 考え られ る の が 、/proc/PID 
ディ レク トリ ー の パー ミッ ショ ン 
を 変更 する こと で す 。 し か し 、 シ 
ステ ム 管 理 ツー ル の 中 に は /proc/ 
PID ディ レク トリ ー の パー ミッ ショ 
ン を チェ ッ ク す る も の が あり ます 
パー ミッ ショ ン を 不用 意 に 変更 し 
て し まう と 、 そ うし た ツー ル が 動作 
し 回 く な る 恐れ が あり ます 

そこ で 2012 年 3 月 リリ ー ス の カ 
ー ネ ル 33 に は 、procfs に 新しい ア 
クセ モス 制御 機能 が 追加 され まし た 
これ に よっ て 、 パ ー ミ ッ シ ョ ン は に は 変 
化 き せ ず に 、/proc/PID デ ィ レ クト 
リー へ の 移動 を 制限 で きる よう に 

な り ま す 。 ア クモ セス 制御 設定 に は 、 


$ sudo mount 
* cd /proc/1 ロ 
-bashi cd: /proc/1: 


$ ps aux 曲 
USER 

Sueyasu 
sueyasu 


図 2 「hidepid=1」 設 定時 の 動作 


PID %CPU %MEM VSZ 
1495 0.0 0.0 116832 
1584 0.0 0.0 113384 


モタ ング 


/proc/PID デ ィ レ クト リー の アク セス を 制限 し な い 。 従来 と 同じ 動作 (既定 ) 

他 の ユー ザー が 起動 し た プロ セス の /proc/PID デ ィ レ クト リー へ の アク セス 

は 他 の ユー ザー の プロ セス の /proc/PID デ ィ レ クト リー は 表示 さ 
る 


他 の ユー ザー が 起動 し た プロ セス の /proc/PID デ ィ レ クト リー へ の アク セス 


hidepid=2 


id- グル ー プ ID こ に アク セス で きる 
表 1 に 挙げ た procts の マウ ント オプ 
ショ ン を 使い ます 

「hidepid=1」 を 設定 する と 、 自 
分 自身 が 起動 し た プロ モス 以外 の / 
proc/PID デ ィ レ クト リー へ の 移動 
が 不可 能 に な り ま すし 、 そ の 中 に あ 
る ファ イル も 参照 で き な く な り ま 
す ( 図 2)。 こ の 状態 で は 、ps aux 
コマ ンド を 実行 し て も 自分 自身 が 
起動 し た プロ モス の 情報 し か 表示 
され ませ ん 

「hidepid=2」 と 設定 する と 、 き さき 
らち に 自分 自身 が 起動 し た プロ モス 
以外 の /proc/PID デ ィ レ クト リー 
の 存在 すら も 隠さ れん て し まい ます 
他 の ユー ザー が 起動 し た プロ モス 
の ユー ザー (euid) / グ ルー プ (eg 


-0 remount,htdep1d=1 /proc 器 


許可 され て いな い 操作 で す 


RSS TTY STAT START 
2064 pts/0 Ss Jan28 
1112 pts/0 R+ 00:02 


を 制限 する 。 他 の ユー ザー の プロ セス の /proc/PID デ ィ レク トリ ー の 表示 も 
され な く な る 
指定 し た グル ー プ ID に 属す る ユー ザー は 、 す べ て の /proc/PID デ ィ レク トリ 


id) 情報 も 得 ら れ な く な り ま す 
既定 設定 は 、 「hidepid=0| で す 
これ は 、 従 来 と 同様 に /proc/PID 
ディ レク トリ ー を て の ユー ザ 
ー に 公開 する 設定 で す 。 これ が 茎 定 
と な っ て いる の は 、/proc/PID ディ 
レク トリ ー へ の アク モス 制限 に よ 
っ て 一 部 の シス テム 管理 ツー ル が 
動作 し な く な る 危険 を 避け る た め 

で す 

gid オ プシ ョ ン を 使っ て グル ー プ 
ID を 設定 する と 、 そ の グル ー プ に 
属す る ユー ザー は 、 す べ て の /proc/ 
PID 情報 を 閲覧 で きる よう に な り ま 
す 。 シス テム 管理 ユー ザー が 所 属す 
る グル ー プ を 指定 する と よい で し 
イフ) 


TIME COMMAND 
0:00 -bash 
0:00 ps aux 


hidepid=1 を 設定 する と 、 自 分 自身 が 起動 し た プロ セス 以外 の /proc/PID デ ィ レ クト リー に は 移動 不可 能 に な り 、 そ の 中 に ある ファ イル も 参照 で を な く な る 。 この 
状態 で は 、ps aux コ マン ド を 実行 し て も 自分 自身 が 起動 し た プロ セス の 情報 し か 表示 な い 。 


Copy on write credentials 
柔軟 な 権限 設定 を 可能 に する 


Linux 
まとめ て 「 タ スク 」 と 表現 し ます 

各 タ スク に は 、 タ スク の 動作 権限 を 
制御 する た め の 資 格 情報 (credenti 
als) が 設定 され て いま す 。credent 
ials に は 、 表 1 の よう な 情報 が 含ま 


ら の credentials 情 報 
は 、 各 タス ク が 保有 する 「task_str 
ue と いう 名 前 の 構造 体 ( タ スク 構 
造 体 ) に 格納 され て いま し た 。 し か 
し 、2009 年 3 月 23 日 に リリ ー ス さ 
れ た カー ネル 26.29 か ら は 「cred」 
と いう 名 前 の 独立 し た 構造 体 に 分 
離し て 格納 され る よう 変更 され ま 
し た 

単に 分 離し た だ け で は な く 、 同 じ 
セキ ュ リ ティ 設定 の タス ク で あれ 
ば 、 同 一 の cred 構 造 体 共有 で き 
る よう に な っ て いま す ( 図 1)。 タ 
スク 構造 体 に は 、 こ の cred 情 報 へ 
の ポイ ンタ (参照 情報 ) し か 格納 
され て いま せん 。 そ の た め 、 一 時 的 
に セ モ キ ュ リ ティ 設定 を 変更 する 操 
、 ヽ ポイ ンタ の 変更 だ け で 効率 良 
i で きま す 
cred 構 造 体 を 共用 可能 
ょ っ た た め 、 タ スク が 勝手 に cre 
dentials 情 報 を 書き 換え る こと は で 
き な く な り ま し た 


credentials 情 
その タス ク 用 
に cred 構 造 体 を 新規 に 用 意 し 、 既 
存 の 構造 体 か ら 情 報 を コビー し て 


か ら 書 き 換 える (copy on write す 


タス ク 構 造 体内 に 格納 され て いた セキ ュ リ ティ 設定 用 の 資格 情報 (credentials) を 分 離し 、 専 用 の 構造 体 で 管理 する 
改良 で す 。 又 軟 な 権限 設定 が 可能 に な る 利点 が あり ます 。 


表 1 主 な 資格 情報 (credentials) 
各 タ スク (プロ セス や スレ ッ ド ) に は 
リティ 保護 が 実施 され る 


、 こ うし た 資格 情報 が 設定 され て いて 、 こ れ を 利用 し て 各種 の セキ ュ 


実 ユ ー ザ ーID/ 実 グル ー プ ID 


suid/sgid 親 プ ロ セス の 実効 ユー ザーID/ グ ルー プ ID 
euid/egid 実際 の 処理 権限 を 決め る ユー ザーID/ グル ー プ ID 
fsuid/fsgid ファ イル ・ シ ステ ム の アク セス 権限 を 決め る ユー ザーID/ グル ー プ ID 
securebits root 権 限 を 取得 し て も 一 部 の 権限 を 制限 する た め の 情 報 
cap_inheritable 子 プ ロ セ ス に 半 承 可能 な POSIX Capabiliy 
cap_permited 許可 され る POSIX Capability 
cap_effective 実際 の 処理 権限 を 決め る POSIX Capability 
cap_bset プロ セス に あたえ る POSIX Capability を 制限 する た め の 情 報 
jR_keyring 標準 の キー リン グ 
process_keyring プロ セス 固有 の キー リン グ 
tnread_keyring スレ ッ ド 固有 の キー リン グ 
request_key_auth 要求 され た キー の 認証 元 
security 適用 する LSM (Linux Security Module) の モジ ュー ル 
従来 は タス ク 構 造 体内 に 資格 情報 を 格納 

タス ク A タス ク B タス ク C 


タス ク 構 造 体 | タス ク 村 造 体 | | タス ク 構造 体 


資格 情報 を 格納 する セキ ュ リ ティ フィ ー ル ド 


タス ク 構 造 体 か ら 資 格 情報 が 分 離し 共有 可能 に 


タス ク A タス ク B タス ク C 
| タス ク 構造 体 | | タス ク 構造 体 | | タスク 構 造 体 

ボイン タ ポイ ンタ ポイ ンタ 
資 格 情報 を 格納 ペーーーー 一 ヽ 変更 時 は コピ ー 
する cred 欄 和信 「 ーee 還 還 記 し て か sa える 


図 1 柔軟 を セキ ュ リティ 設定 を 可能 に する 「Copy on write credentials」 

タス ク 構 千 体 に 格納 し て いた 資格 情報 (credentials) を 分 部 し 、 独 立 し た cred 構 造 体格 興す る 。 分 
て 、 複 数 タス ク 間 で の 資格 情報 の 共有 や 、 一 時 的 な 資格 情報 の 変更 が 柔 きる 。 その 半面 、 資 
(情報 を 書き 換え る 際 は 、cred 構 造 体 を 新規 に 用 意 し 、 既 存 の 構造 体 か ら 情報 を コピ ー し て か ら 書 き 換え 
る (copy on write する ) 必 要 が ある 。 


る ) 必要 が あり ます 
の 改良 を 「Copy on write credent 


その た め 、 こ ご 基本 的 に ored 村 信人 内 の 情報 は ( 作 


成 時 以外 に ) 変更 され ませ ん 。 た だ し 、 参 照 カ 
ウン タ な ど 、 随 時 更新 され る 情報 も あり ます 。 


ials] 


権限 昇格 処理 が 迅速 に 

Copy on write credentials の 最 
大 の 利点 は 、 前 述 し た よう に タス ク 
の セキ ュ リ ティ 設定 を 柔軟 に 変更 
で きる こと で す 。 例え ば ある タス ク 
入 の 処理 中 に 、 一 時 的 に 他 の タス ク 
B の 動作 権限 が 必要 に な っ た と し ま 
す 。 従 来 な ら ば 、 タ スク A の crede 
ntials 情 報 を どこ か に 退避 させ て か 
ら 、 タ スク B の タス ク 構 造 体 か ら cr 
edentials 情 報 を コピ ビー し て 、 タ ス 
ク A の タス ク 構 造 体 を 書き 換え る 
必要 が あり まし た 。 元 の 権限 に 戻す 
場合 は 、 退避 させ て お いた credent 
ials 情 報 を 再び タス ク A の タス クタ 構 
造 体 に 書き 戻 き ね ば な り ま せん 

これ に 対し 新しい 実装 で は 、 タ ス 
ク A の タス ク 構 造 体内 の cred 構 千 
体 へ の ポイ ンタ を タス ク B の cred 
構造 体 へ の ポイ ンタ に 書き 換え る 
だ け で 、 動 作 権限 を 変更 で きま す 
復帰 も 同様 で す 

これ が 役立つ の は 「FS-Cache] 
の よう な ソフ トウ エア の 場合 で す * 
2。FS-Cache は 、 他 の ファ イル シス 
テム の デー タ を ロー カル に キャ ッ 
シュ し て 高速 化す る 仕組 み で す ( 図 
2)。 ネッ トワ ー ク ファ イル シス テム 
の よう に アク セス 速度 が 遅い ファ 
イル ・ シ ステ ム で の 利用 が 想定 され 
て いま す 。 こ の FS-Cache の 処理 で 
は 、 キ ャ ッシュ 管理 用 の カー ネル 
スレ ッ ド が 、 ベ ー ス と な る ファ イル 
シス テム を 操作 する 権限 を 一 時 的 


NFS 


| 語 
| ゴー ご モート サー バー 


キャ ッシュ 管理 コー ド 


ミツ 
| 通常 佐 照 する 
cred 構 造 体 


NFS デ ー モ ン 


NFS デ ー モ ン の 
cred 構 造 体 


図 2 キャ ッシュ 処理 で 役立つ Copy on write credentials 
「FS.Cache」 と いう ファ イル ・ シ ステ ム の キャ ッシュ 機 帆 で は 、 キ ャ ッシュ 管理 プロ グラ ム が 一 時 的 に キャ 


ッシュ 元 の ファ イル ・ シ ステ ム に アク セス する 権限 が 必要 。Copy on write credentials 環 境 で は 、 参 照 する 


cred 構 造 体 を 変え る だ け で 資格 情報 を 変更 で きる の で . 


に 取得 する 必要 が あり ます 。 つ ま 
り 、 ベ ー ス ファ イル シス テム の 管理 
デー モン の 権限 に 一 時 的 に 切り 替 
える 必要 が ある わけ で す 。 Copy on 
write credentials が あれ ば 、 こ の 処 
理 を 迅 速 に 実施 で きま す *3 

な お 、 CN 
利用 方 法 に つい て は 、 カ ー ネ ル 付属 
の security/credentials.txt と いう 
文書 に 詳し く 解説 し て あり ます 


2.6.27 か ら 徐 々 に 導入 
柔軟 な セキ ュ リ ティ 設定 を 可能 
に する Copy on write credentials 
で す が 、 タ スク 構造 体 の credenii 
als 情 報 を 直接 操作 する 従来 の 仕組 
み と は まっ た く 異 な り ま す の で 、 カ 
ー ネ ル の さま ざま な 部 分 に 変更 が 
必要 に な り ま す 。 変 更 が 必要 な 部 分 
が あま り に も 多い の で 、 す ぐに は 導 
入 き れず 、 ま ず credentials 情 報 に 
アク モス する た め の API (Applicat 
jon Programming Interface) だ け 
が カー ネル 2627 に マー ジ さ きれ まし 


この 処理 が スム ー ズ に な る 。 


た 。 カ ー ネ ル 26.27 の 時 
の API は 特に 何 の 働 きも し な い 、 単 
な る ラッ パー 用 の マク ロ 定 義 で し 
た 。 上 旧来 の 手法 で も credentals 情 
報 に アク モス で きる 状態 を 保ち つ 
つ 、 徐々 に 新 API へ の 対応 を 進め 、 
約 半年 後に カー ネル 26.29 で の マー 
ジ が 決定 し た わけ で す 

な お 、Copy on write credentials 
導入 に より 、 セ キュ ア 0S 機 能 「TO 
MOYO Linux」 (http://tomoyo.so 
urceforge.jp/) は 書き 換え を 迫 られ 
まし た 。 同機 能 は 必要 な 修正 を 加え 
た 後 、2009 年 6 月 リリ ー ス の カー ネ 
ル 26.30 に マー ジ さ れ て いま す 


*2 経緯 的 に は 、FS-Cache の 開発 に 
お いて 必要 に な っ た た め Copy on write 
credentials が 生ま れ ま し た 。 ど ちら も 、Dav 
id Howells 氏 が 提案 / 開 発し て いま す 。 な お 
FS-Cache は 、 カ ー ネ ル 2.6.30 に マー ジ され 
まし た - 

*3 特定 の デー モン の credentials を カ 
ー ネ ル スレ ッ ド 用 に 取得 する 「prepare_ke 
nel_cred] と いう 関数 が 新規 追加 され て 
いま す 。 


Performance Event 
さま ざま な イベ ント を 計測 


CPU が 備え る イベ ント カウ ント 用 の 特殊 レジ スタ な ど を 使っ て 、、 さま ざま な イベ ント を 計測 する た め の サ ブシ ステ ム 
で す 。 ソ フト ウエ ア の 負荷 な ど を 正確 に 計測 で きま す 。 


最近 利用 きれ る CPU の ほとん ど 
は 、CPU 内 部 で 発 人 
エア イベ ント を 計測 する 仕組 み を 
備え て いま す 。 例 えば x86 互 換 プ ロ 
モッ サ で は 、Pentium 以 降 の プロ 
セッ サ に 「 パ フォ ー マ ン スカ ウン タ 
ー」 と 呼ば れる 特殊 な レジ スタ が 搭 
埋 さ れ て いま す 

この 仕組 み を 利用 する と 、 命 令 実 
了 や キャ ッシュ ミス 、 分 岐 予 
測 失敗 な どの 発生 イペ ント 数 を 正 
確 に 計測 で きま す ク 数 も 正 
確 に カウ ント で きる の で 、 ア ブリ ケ 
ーション の 実行 時 間 $ ナ ノ 秒 単位 
で 計測 で きま す 

パフ ォ ー マ ンス カウ ンタ ー な ど 
を 使っ た イベ ント 計測 は 、 ソ フト 
ウエ ア の 性 能 向 上 に 欠か せま せん 
例え ば 、 キ ャ ッシュ ミス や 分 岐 予測 
失敗 は 、 ア プリ ケー ショ ン の 実行 性 
能 を 大 きく 低下 させ ます 。 計測 の 結 
果 、 あ る アプ リケーション の 実行 中 
に こう し た イベ ント が 多発 し て い 
る こと が 分 か れ ば 、 イ ベン ト を 発生 
きせ な いよ うに プロ グラ ム を 改良 
する こと で 性 能 を 向上 で きま す 


る ハー ドゥ 


クロ ッ 


Linux カー ネル は 当初 、 パ フォ ー 


マン スカ ウン ター の よう な 仕組 み 
を 正式 に は サポ ー ト し て いま せん 


で し た *!。 数 年 に 渡り 「perimon] 
2 名 前 で バッ チ が 開発 され た 
あり まし た が 、API が 複雑 な 
どか ら 反 対 意見 が あり 、 マ ー 
ジ = は 各 ) ませ ん で し た 

し か し 2008 年 12 月 に 、 よ り シ ンプ 

: 実 装 の 「Performance Event] 
サ プ シ ステ ム が 提案 きれ た こと が 
状況 が 急変 し 、 つ い に 2009 年 9 月 9 
日 に リリ ー ス され た カー ネル 206.31 
/ さ れ ま し た 

カー ネル 3.16 の 時 点 で は 、x86 と 
PowerPC、S390、ARM、SH な ど 
の CPU を サポ ー ト し て いま す 


に マー ジ 


付属 ツー ル 「perf」 で 計測 
Performance Event サ プシ ステ 

ム の API は シン プル で す 。 新設 

きれ た の は 「perf_event_open0」 


と いう シス テム コー ル だ け で 、 こ れ 
は 1 つの イベ ント に 対し て 1 つの フ 
テ ァイル 記述 子 を 割り 当て る 役割 を 


持ち ます 。 ファ イル 記述 子 の 割り 当 


表 1 PR で 指定 で きる 主 な サブ コマ ンド 


perf コ マ 


lt 全 イベ ント 名 を 表示 


し た サブ コマ ンド の いずれ か を 指定 し て 実行 する 


CHG02 ド で 記録 し た イベ ント 情報 の 特定 シン ボル の アセ ン ブ リ コー ド を 
示 


コマ ンド を 実行 し 、 実 行 中 の イベ ント 情報 を [pertdatal] ファ イル に 記録 する 


report report サ ブ コ マン ド で 記録 し た イベ ント 情報 を 表示 する 
stat コマ ンド を 実行 し 、 実 行 中 の イベ ント の 統計 情報 を 表示 する 
1op 現在 実行 中 の 関数 を イベ ント 情報 に 基づい て リス ト す る 


て 後 は 、read0 や fcnt(0 な どの 通常 
の シス テム コー ル を 利用 で きま す 

も っ と も ユー ザー が これ ら の シ 
ー ル を 直接 使う こと は 少 
な いで し ょ う 。 カ ー ネ ル の ソー スコ 
ー ド に 、 同 サ プ シ ステ ム を 利用 する 
「perfl と いう イベ ント 計 油 コマ ン 
ド が 付属 し て いる か ら で す 

perf コ マン ド は 、 カ ー ネ ル の ソー 
スッ ツリ ー の 「tools/perf] ディ レク 

トリ に 移動 し 、 次 の コマ ンド を root 
権限 で 実行 する こと で ビル ド と イ 
ンス トー ル で きま す 


ステ ム 


# make HOME=/usr jnstall 中 


perf コ マン ド は 表 1 の よう な サ プ 
コマ ンド の いずれ か を 指定 し て 実 
行 し ます 

「perf topg」 を 


実行 する と 、 パ フ 


写真 1 perf top コ マン ド の 表示 例 
「perf top 口 」 を 実行 する と 、 パ フォ ー マ ン スカ ウ 
ンタ ー 値 を 基準 に 実行 中 の 関数 を リス ト す る 。 表 
示 は top コ マン ド に 昭 似 。 標 準 で は 、 実 行 サ イク ル 
数 が 多い 順に 関数 を 並べ る 。 


*1 「OProfile」 と いう プロ ファ イリ ング 模 能 
で は 、 パ フォ ー マ ン スカ ウン ター を 利用 し て い 
まし た 。 


WNW 昌利 
NN テク ク __ 9 多 
シング | 半 稼 


ォ ー マ ンス カウ ンタ ー 値 を 基準 に 
実行 中 の 関数 を リス ト し ます (写真 
1)。 表 示 は top コ マン ド に 似 て いま 
す 。 標準 で は 、 実 行 サ イク ル 数 が 多 
い (実行 時 間 が 長い ) 順に 関数 を 
表示 し ます 

これ を 例え ば 、 実行 命令 数 が 多い 
順に 表示 きせ る 場合 に は 、 次 の よう 

: 進 と する イベ ント を 指定 し ます 


# perf top -e fnstruct1ons 器 


指定 可能 な イベ ント は 「perflist 
ロ | を 実行 すれ ば 調べ られ ます 
ある コマ ンド を 実行 し た 際 の イ 


ペン ト 発 生 状 況 は 、stat サ プ コ マン 
ド に 続い て 、 調 査 対象 の コマ ンド を 
指定 すれ ば 調べ られ ます 。 例 えば 、 
/bin/true コマ ンド 実行 時 の 状況 を 
調べ る に は 、 次 の コマ ンド を 実行 し 
ます 。 


* perf stat /bn/true ロ 


実行 結果 は 図 1 の よう に な り ま 
す 。top サ プ コ マン ド と 同様 に 、 調 
査 する イベ ント は 「-c|」 オプ ショ ン 
で 指定 で きま す 。 イベ ント は カン マ 
区 切り で 複数 指定 可能 で す 

プロ グラ ム 内 部 の どこ に オー バ 
ー ヘ ッ ド が ある の か を 調べ る 場合 
は 、record サ プ コ マン ド で イベ ン 
ト 情報 を 記録 し 、 そ れ を report サ 
プ コ マン ド で 表示 させ ます ( 図 2) 


オプ ショ ン 指定 する 場合 は 、 サ ブ コマ ンド の 後に 記述 
* perf stat(Zb1n7true] ロ | 訂 査 対象 の コマ ンド 


Performance counter stats for "/b1in/true': 


0.580283 task-clock-msecs 
0 context-switches 
0 CPU-migrat1ons 
125 page-faults 
920042 cycles 
591614 1nstructions 
13876 cache-references 
464 cache-misses 


生生 


0.000746237 


図 1 コマ ンド 実行 時 の イベ ント 発生 状況 を 調査 
ある コマ ンド を 実行 し た 際 の イベ ント 発生 状況 は 、stat サ ブ コ に 続い て 、 調 査 対象 の コマ ンド を 指定 
すれ ば 調べ られ る 。 図 は 、/bin/true コ マン ド 実 行 時 の 状況 を 調べ た 場合 の 例 。 


seconds time elapsed 


3 perf record /bin/true 


デー タ は 「perf 
data] ファ イル 
に 記録 され る 
samples: 21 
Overhead Command 


Shared 0bJect Symbol 


[kernel] 【k] native_flush_t1b_sfngle 
[kerne1] [k] _spin_1ock 

[kerne1] [k] kmap_atomic_prot 
[kernel] [k] _might_sleep 

[kernel] 【[k] vma_merge 

[kerne1] [K] mem_cgroup_add_1ru_1tst 
[kerne1] [k] path_get 

[kernel] 【k] pr1o_tree_tnsert 


図 2 プロ グラ ム 内 部 の オー バー ヘッ ド を 調査 

プロ グラ ム 内 部 の どこ に オー バー ヘッ ド が ある の か どう か を 調べ る 場合 は 、record サ ブ コ マン ド で イベ ン 
ト 情 報 を 記録 し 、 そ れ を repot サ プ ブ コ マン ド で 表示 させ る 。 イ ベン ト 情 報 は 、record サ ブ コ マン ド を 実行 し 
た 際 の カレ ント ディ レク トリ ー に [perf.data] と いう ファ イル 名 で 記録 され る 。 


バン ト 情 報 は 、record サ プ コ マ 
ンド を 実行 し た 際 の カレ ント ディ 
レク トリ ー に 「pertdata」 と いう フ 
テイ ル 名 で 記録 きれ ます 


perf コ マン ド の 詳し い 使い 方 は 、 
ッ ツリー の 「tools/pe 
rI/Documentation] ディ レク トリ 
ー に ある 文書 で 解説 され て いま す 。 
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KVM/VT-x で の Unrestrict Guest サ ポー ト 
16 ビッ トコ ー ド を 完全 動作 


カー ネル が 装備 する 仮想 化 機能 
IKVMI (KerneLbased Virtual Ma 
ゲス ト 環 境 の プロ グラ 
ュ レ ーション な し に 


chine) は 、 
ム を CPU エ 


実 CPU 上 する た め の 仕 組み 
で す 。KVM は 、CPU に 装備 きれ る 


「VT-x」 や 「AMD-V」 と いっ た 仮 
想 化 支援 機構 を 使う こと 
環境 と ゲス ト 環 境 の スム 
り 奉 え を 実現 し ます 

と ころ が 、 実 は KVM に も CPU エ 
ミュ レー ショ ン 用 の コー ド (arch/ 
x86/kvym/emulatec) が 含ま れ て い 
ます 。 こ こ に は 例え ば 、 ス タッ ク か 
ら レ ジス タ の 値 を 復元 する 「POP] 
命令 エエ ミュ レー ショ ン す る 、 図 1 
の よう が あり ます 。 な や ぜ 、 
この よう な CPU エミ ュ レ ーション 
が 必 る の で し ょ うか 


それ は 仮想 化 支援 機構 の 機能 が 


不足 し て いる た めで す 。 特に イン テ 
ル CPU に 装備 され る 「VT-x」 は 、 
ゲス ト 環 境 で の リア ルモード プロ 
グラ ム の 動作 を まっ た く サ ポー ト 
し て いな いな ど 機 能 不 
エミ ュ レ ーション が 必要 な 
が か な りあ り ま す 

リア ルモード と は 、1978 年 に 発表 
され た 「Intel 8086」 ヒメ モリ 
ー 管 理 を 行う 動作 モー ド で す 。DOS 
や DOS で 稼働 する プロ グラ ム は 、 
の リア テア ルモード で 動作 


また 、PC AT 互換 機 は 互換 性 を 
確保 する た め 、 電 源 投入 直後 は リ 
アル モー ド で 動作 し ます 。BIOS や 

基本 的 に リア ル ・ 
モー ド で 動作 する よう に 作ら れ て 
いま す 。Linux や Windows な どの 
32 ビ ッ ト /64 ビ ッ ト OS は 、 起動 途 


stat1c 1nt emulate_pop(struct xB6_emulate_ctXt *ctxt。 


Vo1d *dest, 
{ 
1nt rc 
struct segmented_address addr: 


1nt 1en) 


addr.ea = reg_read(ctxt, VCPU_REGS_RSP) & stack_mask(ctxt): 


addr.seg = VCPU_SREG_SS: 

rc = segmented_read(ctxt, addr, dest, 1en): 

1f (rc != X86EMUL_CONTINUE) 
return rci 


rsp_increment(ctxt。 1en): 
return PCi 


図 1 KVM に 含ま れる CPU エミ ュ レ ーション コー ド 
arch/x86/kvm/emulate.c の 一 部 。 ス タッ ク か ら レ ジス タ 値 を 復元 する POP 合 令 の エミ ュ レ ーション 部 分 


を 抜き 出し て いる 。 


イン テル CPU で 稼働 する KVM 環 境 上 で 16 ビ ッ ト コ ー ド を 完全 に 稼働 させ る た め の 改 良 で す 。 32nm プ ロ セ ス 製 造 の 
Nehalem ア ー キ テク チャ ー 以 降 の イン テル CPU で 利用 で きる よう に な り ま し た 。 


中 に 自分 自身 で CPU の 動作 モー ド 
を 切り 替え る 処理 を 実施 し ます 


unreal モ ー ド の 利用 に 制限 

VT-x が リア ルモード を サポ ー 
ト し て な いた め 、 イ ン テ ル CPU の 
KVM ゲス ト 上 で リア ルモード プロ 
グラ ム を 稼働 きせ る 場合 に は 、 常 に 
CPU エミ ュ レ ーション が 実施 され 
ます 。 動 作 迷 度 が 低下 する だ け で 
な く 、VT-x の 処理 と の 兼ね 合い で 
エミ ュ レ ーション が 不 完全 で 、 動 作 
し な い ソ フト も あり ます 。 例 えば 、 
「unreal モ ー ド *!| を 利用 する ソフ 
ト は 正常 動作 し ませ ん 

unreal モ ー ド と は 、 80386 以 降 の 
CPU の リア ル ・ モ ー ド 環境 に お い 
て で て 、1M バイ ト 以 上 の メモ リー を 利 
用 する た め の 「 裏 技 ] 的 な 動作 モー 
ド で す 

unreal モ ー ド を 利用 する に は 、 い 
っ た ん CPU の フル 機能 を 発揮 で き 
る 「 プ ロ テ ク トモ ー ド 」 に 切り 替え 
て 4G パ イト の アド レス 空間 を 確保 


し 、 そ の まま 再度 リア ル ・ モ ー ド に 
復帰 させ ます 。 こ れ に より 、 本 来 


1M パ イト に 制限 さき れる アド レス 空 
間 を 4G バ イト に 拡大 で きる の で す 
拡大 し た メモ リー 空間 に アク セス す 
る に は 、 特 殊 な プリ フィ ックス *2 を 


* 1 ピッ グリ アル モー ド や フラ ッ ト リア ル モ ー 
ド と いっ た 呼び 方 も あり ます 。 

*2 命令 の 動作 制御 用 に 、 命 令 の 前 に 配 
改 す る 命令 修飾 デー タ の こと で す 。 


門 知っ て お きた 


い カ ー ネ ル の 技術 


アア 
アノ ワル 
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命令 に 付加 し ます 

unreal モ ー ド は 、 多 量 の メモ リ 
ー を 必要 と する ゲー ム ソ フ ト な ど 
で し ば し ば 使わ れ ま し た 。 ま た 、 ブ 
ー ト ・ ロ ー ダ ー「GRUB」 の 見 栄え 
を 良く する 拡張 「gfxbootLl や 、 フ 
ラッ シュ ROM を 書き 換え る DOS 
用 ツー ル [UniFlashl (http://w 
wwr.rainbow-softwWare.OTg/DrOgra 
mshtml) な ど で も 使わ れ て いま す 

実際 に UniFlash を 稼働 きせ て み 
る と 、VT-x 環境 上 の KVM で は 図 2 
(4) の よう に 停止 し て し まい ます 
同じ 環境 で KVM だ け を 無効 に する 
と 、 正 常 稼働 し ます ( 図 2 (b)) の 
で KVM の 問題 だ と 分 か り ま す 

また 、AMD CPU 上 で 動作 す 
る KVM で も 正常 稼働 し ます か ら 、 
KVM/VT-x の 問題 で ある こと も 分 
か り ま す 


Westmere 以 降 で 完全 動作 可能 

イン テル が 2010 年 に 発売 し た 
32nm プロ モス 製造 の [Nehalem] 
7 ニキ テウ チャー の CPU (コー ニ ド 
名 : Westmere) で は 、 リ アル モー 
ド を サポ ー ト する よう に VT-x の 機 
能 が 強化 され まし た 。 こ れ に より 、 
unreal モ ー ド で 動作 する も の も 含 
め 、 リ アル モー ド プ ログ ラム を ゲス 
ト 環境 で 完全 に 稼働 で きる よう に 
な り ま し た 

この 機能 は 「Unrestricted Gue 
st」 と 呼ば t ま す 。 こ れ に 合わ せ て 


KVM 利 用 時 


メニ ュー 表示 途中 で ハ 
ング アッ プ す る 


unreal モ ー ド プロ グラ ム が 動作 し な い 例 
フラ ッシュ ROM を 書き 換え る DOS 用 
行 し た 様子 。VT-x 環 境 上 の KVM で は 、 メ 
ハン グ ア ッ プ し て し まう 。 


QEMU 利 用 時 


KVM を 無効 に し た OQEMU 
で は 正常 動作 する 


リア ルモード に な っ た 場合 に 呼ば れる 関数 


statfc vofd enter_rmode(struct Kvm_vcpu *VCPu) 


( 
unsfgned 1ong flagsi 


struct VcDU_VmX *VmX = tO_VmX(VCPU): 


1f (enable_unrestricted_guest)| 
return: 


vmx->emulat1on_required - 1: 


VmX->rmode.vm86_act1ve 


Unrestricted Guest 
有効 な ら 何 も せ ず に 
関数 終了 


エミ ュ レ ーション を 有効 
に する フラ グ を セッ ト 


図 3 Unrestricted Guest 有 効 時 は エミ ュ レ ーション 無効 


カー ネル 3.4 の arch/x86/kvm/vmxc の 一 部 。Unrestric 
する フラ グ を セッ ト し な いこ と が 分 か る 。 な お 、 カ ー ネ 
リ 、 両 者 の 関係 が 分 か りつ らく な っ て いる 。 


KVM も 、Unrestricted Guest に 対 
応 する よう 改良 され まし た 。 図 3 の 
よう に 同機 能 有 効 時 に は 、 エ ミュ 
レー ショ ン は 無効 に た り ま す 。 Unr 
estricted Guest 対 応 の 新しい KVM 
は 、 カ ー ネ ル 26.32 に マー ジ さ れ て で 
Wo ま 3: 

Unrestricted Guest を サポ ー ト 
する CPU、KVM を 利用 し て いる 場 
合 、 同 機能 は 自動 的 に 有効 に な り ま 
す 。 機能 を 無効 に する 場合 は 、kvm- 


ted Guest 有 効 時 に は 、 エ ミュ レー ショ ン を 有効 に 
ル 3.9 以 降 で は 同 箇所 の コー ド が 大 幅 に 変わ っ て お 


intel モ ジュ ー ル に 「unrestricted_ 
guest=0] と いう バラ メー タ 
すか 、「kvm-inteLunrestricted_gue 
st=0] と いう オプ ショ ン を 付加 し て 
カー ネル を 起動 し ます 

な お 同 改良 と は 別に 、unreal モー 
ド の エミ ュ レ ーション を 沈 に す 
る 改良 も 続け られ まし た 。 カ ー ネ ル 
310 以 降 で は 、Westmere より 前 の 
CPU で も unreal モ ー ド の プロ グラ 
ム を 稼働 で きま す 


ング 
と 


TSN 


BPE JIT コン パイ ラ 
フィ ル タ リ ング 処理 を ネイ ティ ブ 化 


ネッ トワ ー ク か ら の 受信 パケ ッ 
ト を 選別 する た め 、 Linux カー ネル 
は 「Linux Socket Filter| (以下 、 
LSF) と いう フィ ル タ リ ング ダ 機 構 を 
備え て いま す 。tcpdump コ マン ド 
や libpcap ラ イプ ラリ の よう に 、 低 
レベ ル な パケ ッ ト 処 理 を 実施 する 
プロ グラ ム が LSF を 使い ます 

LSF は 、BSD 系 UNIX で 使わ れる 
同様 の フィ ル タ リ ング 機構 「BPF」 
(Berkeley Packet Filter) を 基 に 開 
発 され て いま す 。 大 ま か に は 同様 の 
機能 を 提供 する 両者 で す が 、 提 供 す 
る 個々 の 機能 や 実装 方 式 は か な り 
異な り ま す 

機能 的 に は LSF の 方 が 簡素 化 さ 
れ て いま す 。BPF が 送受 信 双 方 の 


フィ ル タ リン グル ー ル を 


パケ ッ ト を 処理 で きる の に 対し て 、 
LSF で は 受信 バケ ッ ト だ けし か 処 
理 で きま せん 。 BPF に は ある 処理 効 
率 向 上 の た め の 機 能 (snapshot や ii 
meout) も LSF に は あり ませ ん 。 実 
装 面 で は 、 通 常 の ネッ トワ ー ク スタ 
ッ ク と の 関係 が 異な り ま す 。 BPF が 
ネッ トワ ー ク スタ ッ ク と 分 離し て 
いて 、 独 自 の デパ イス ファ イル (/ 
dev/bpf [0.9]) を 通じ て 利用 する 
方 式 な の に 対し 、LSF は ネッ トワ ー 
クス タッ ク に 組み 込ま れ て お り 、 任 
意 の プロ トコ ル ソ ケ ッ ト と 組み 合 
わせ て 使 > 


と いう 違い が あり ます 


機械 語 で ルー ル を 記述 
LSF や BPF の フィ ル タ リ ング ル 


で tcpdump や libpcap| 


(OO) dh 
(001) jeq #Ox800jt2jf5 
(002) db [23) 
(003) jeq #0x1 K4T5 | 攻 | 
(004) ret #65535 
(005) ret #0 


フィ ル タ リ ング ルー ル の 例 
(tcpdump -i em1 icmp 
で 生成 し た ルー ル を アセ ン 
プリ コー ド 化 し た も の ) 


イン タプ リタ 


ネイ ティ ブ コー ド の 
フィ ル タ リン グル ー ル 


イン タプ リタ 
を 介さ な い 
た め 高速 


デバ イス ドラ イ バ 


図 1 BPF JIT コ ン バ パイ ラ に よる Linux Socket Filter の 高速 化 
LSF や BPF の フィ ル タ リ ング ルー ル は 、 仮想 的 な CPU の 根 械 語 の 形 で 記述 する 。 tcpdump コ マン ド な ど が 


カー ネル に 送り 込ん だ フィ ル 


ルー ル は 、LSF が 内 蔵 す る イン ター プリ タ が 解釈 実 行 する 。 BPF JIT 


コン パイ ラ は 、 フ ィ ル タリ ング ルー ル を ネイ ティ ブ コ ー ド に 変換 し て 処理 を 高速 化す る 。 


ソケット フィ ル タ リ ング ルー ル 記 述 用 の BPF 言 語 を 実行 時 に 実 CPU の 機械 語 に 変換 する コン バイ ラ で す 。 パケット 監 
視 処理 な どの 高速 化 が 期待 で きま す 。 


_ 要 : 


ー ル は 、 単 純 な 命令 セ モット (BPF 
命令 セット) を 持つ 仮想 的 な CPU 
の 機械 語 の 形 で 記述 し ます *1。 プ 
ログ ラム 形式 に する こと で 秒 軟 な 
マッ チン グ 処 理 を 実現 で きま すし 、 
機械 語 に する こと で 構文 解析 な ど 
の 手間 を 省け 、 カ ー ネ ル 空 間 の メモ 
リー 消費 も 抑え られ ます 

実際 に どの よう な フィ ル タ リ ン 
グル ー ル が 使わ れる か は 、tcpdump 
コマ ンド を 「-d] オプ ショ ン 付 き で 
実行 する と 分 か り ま す 。 これ に より 
に 挙げ ば た よう な フィ ル タ リ ング 
ルー ル の アセ ンプ リコ ー ド を 表示 
で きま す 

ユー ザー 空間 で 作成 し た フィ ル 
タリ ング ルー ル は 、LSF で は 「setso 
ckopt0] シス テム コー ル を 使っ て カ 
ー ネ ル 空間 に 送ら れ ま す 。 送り 込ま 
れ た フィ ル タ リ ング ルー ル は 、LSF 
が 内 蔵 す る BPF 命 令 セ モッ トイ ンタ 
ー プ ブリ タ が 解釈 ・ 実 行 し ます 。 LSF 
の BPF 命令 ミッ トイ ンタ ー プ ブリ タ 
は 、「net/core/filterc 内 の sk_run_ 
filter| 関数 で 実装 され て いま す 

イン ター プ ブリタ の 利用 に よっ て 
生じ る 問題 は 処理 速度 の 低下 で す 
libpcap な ど は 独自 の 最適 化 機構 を 
備え て お り 、 で きる だ けり 高速 処理 可 


* 1 BPF 命 令 セッ ト に つい て は 、FreeBSD 
の bpf (4) に つい て の オン ライ ンマ ニュ アル 
な ど が 参考 に な り ま す 。 オ ン ラ イン マニ ュ アル 
は 、 Web ペ ー ジ (http://www.freebsd.org/ 
cgi/man.cgi) で も 参照 で きま す 。 


N 


3713 .954411] flen=6 proglen=70 pass=3 1mage=ffffffffa017b000 


3713 .954415] JIT code: 
3713.954418] JIT code: 
3713.954421] JIT code: 
3713.954424] JIT code: 
3713.954427] JIT code: 


ffffffffa017b000: 
ffffffffa017b010: 
ffffffffa017b020: 
ffffffffa017b030: 
ffffffffa017b040: 


eb 02 31 c0 c9 c3 


図 2 BPF JIT コ ン パ イラ が 生成 し た ネイ ティ ブ コ ー ド の 例 
/proc/sys/net/core/bpf_jt_enable フ ァイル に 2 を 書き 込む と 、JIT コ ン パ イラ が 生成 し た ネイ ティ ブ コ ー ド を カー ネル ログ で 参照 で きる 。 こ S 
1 の フィ ル タ リ ング ルー ル か ら 生 成 さ れ た カー ネル ログ 。 な お 、 こ の ネイ ティ プ コ ー ド は 、 カ ー ネ ル 3.16 以 降 に 付属 する 「bpf_jit_disasm] と いう ツー ル で 逆 コ ン バ 


イル 可能 だ 。 


能 な 形 で フィ ル タ リ ング ルー ル を 
生成 し ます が 、 そ れ で も 非 効率 性 は 
谷 め ま せ ん 

そこ で BPF で は 、 フ ィ ル タリ ン 
グル ー ル を 実 CPU の ネイ ティ プ コ 
ー ド に 実行 時 に 変換 する ]IT (just 
In Time) コン パイ ラ が 開発 され て 
いま す 。BPF JIT コン パイ ラ は 、 例 
えば 、2008 年 2 月 に リリ ー ス され た 
FreeBSD 7.0-RELEASE な ど に 取 
り 込 まれ て いま す 


提案 か ら 短期 間 で マー ジ 

LSF に BPF JIT コン パイ ラ を 導 
入 し よう と いう 最初 の 提案 は 2010 
年 12 月 に 行わ れ ま し た 。 そ の 際 は 
「 あ っ た らい いね | と いう 雑談 レベ 
ル の 話 に 過ぎ ませ ん で し た が 、2011 
年 4 月 3 日 に Eric Dumazet 氏 が バ 
ッ チ を カー ネル ML に 投稿 し た こと 
で 状況 が 変わ り ま す 

同氏 の パッ チ は 、BPF 
ト を x86-64 命 令 セ モット に ほぼ スト 
レー ト に 変換 する も の で す 。 実装 や 
効果 が 明確 で 影響 範囲 も 限定 的 で 


ある た めか 、 こ の パッ チ に は 大 き な 
修正 要求 や 反対 意見 は 出 ま せん で 
し た 

唯一 、gcc な どの ユー ザー 空間 プ 
ログ ラム で 一 層 の 最適 化 が で きる 
よう に すべ きだ と の 意見 は 出 まし 
た が 、 < は か な り 手 間 が か か る 
も 実用 的 に は 大 き な 問 
題 は な いと の 結論 か ら 1 カ 月 3 経た 
な いう ち に マー ジ が 決定 し まし た 
LSF 用 の BPF JIT コ ン パ イラ は 、 
2011 年 7 月 に リリ ー ス され た カー ネ 
ル 30 か ら 利用 可能 で 3 


上 、 現 状 で 


生成 コー ド を 参照 で きる 

カー ネル 3.0 の 段階 で は 、BPF IIT 
コン パイ ラ を 使用 で きる アー キテ 
クチ ャ ー は x86.64 の み で し た 。 そ 
の 後 順次 拡充 され 、 カ ー ネ ル 3.16 の 
時 点 で は ARM や MIPS、PPC64、 
S390、 SPARC な ど に も 対応 し て い 
ます 

BPF JIT コ ン パ イラ は 、CONF 
IG_BPF_IIT と CONFIG_HAVE_ 
BPF_IJIT の 2 つの カー ネル 設定 変 


55 48 89 e5 48 83 ec 60 48 89 5d f8 44 8b 4f 68 
44 2b 4f ec 4c 8b87 e0000000be0Oc000000 
e8 54 40 ec e03d000800007516be170000 
00 e8 5b 40 ec e083fB0O17507b8ffff0O000 


数 に 「y」 を 指定 し て ビル ド し た カ 
ー ネ ル で 利用 で きま す - 

BPF JIT コン パイ ラ は 標準 で は 
無効 に な っ て いま す 。 有効 に する に 
は ほ は 、/proc/sys/net/core/bpl_jil_ 
enable フ ァイル に 1 か 2 を 書き 込み 
ます (無効 に する 場合 は ゼロ )。2 を 
書き 込む と 、JIT コ ン パ イラ が 生成 
し た ネイ ティ プ コ ー ド を カー ネル 
ログ で 参照 で きる よう に な り ま す 
図 2 は 、 図 1 に 挙げ た フィ ル タ リ ン 
グル ー ル か ら 生 成 さ れ た ネイ ティ 
プ コ ー ド で す 

JIT コン パイ ラ に よる フィ ル タ リ 
ング 処理 時 間 の 短縮 は 、Eric Dum 
azet 氏 の 計測 に よる と 、1 つ の 処理 
当たり 50 ナ ノ 秒 程度 *?。 複雑 な マ 
ッ チ ング ルー ル で 多数 の パケ ッ ト 
を 処理 する 場合 な ど に は 、 か な り の 


効果 が 期待 で きま す 


*2 ベン チマ ー ク の 詳細 に つい て 
は 、Dumazet 氏 の 投稿 メー ル (http:// 
article.gmane.org/gmane.linux.net 
work/191119) を 参照 し て くだ さい 。 


x86-64 R/W セマフォ ー 高 束 化 


x86-64 環境 で も Atomic 操 作 命令 を 利用 


x86-64 環 境 で も x86 環 境 と 同様 に 、CPU の Atomic 操 作 命令 を 使っ た 高速 /W セ マフ ォ ー 実 装 を 使う 改良 で す 。 スピ 
ン ロ ッ ク を 使っ た 従来 版 に 比べ 3 倍 以上 の 性 能 向上 を 実現 し ます 。 


[セマフォ ー」 (Semaphore) は 、 
タス ク の 同期 や 資源 の 排他 処理 な 
ど に 利用 きれ る 機構 で す 。 「 腕 木 式 
ド す る オラ ンダ 語 に 基 
づい て 名 づけ られ まし た *! 
セマフォ ー は カウ ンタ ー 変 数 と 
待ち 行列 で 構成 され ます 。 カウ ンタ 
ー 変 数 は 利用 可能 な 資源 数 を 管理 
し 、 待 ち 行 列 は 資源 の 確保 待ち 状 
問 の タス ク を 管理 し ます 。 カウ ンタ 
ー 変 数 の 初期 値 に 資源 数 を モッ ト 
し て お き 、 資 源 利 用 時 に は セマフォ 
ー を 1 つ 減 らし 、 逆 に 解放 し た と き 


「0] (ゼロ ) で あれ ば 、 割 り 当 て 可 
能 な 資源 が な いこ と を 意味 し 、 資 源 
を 要求 し た タス ク を 待ち 行列 に 追 
加 し て 待機 させ ます 

通常 の セマフォ ー で は 、 カ ウン タ 
ー 変 数 の 参照 や 更新 が 許可 され る 
の は 同時 に 1 つの タス ク だ け で す 
し か し 少し 改良 すれ ば 、 更 新 が な い 
期間 に は 同時 に 複数 の タス ク か ら 
カウ ンタ ー 変 数 を 参照 可能 に で き 
ます 。 参照 タス ク の 待ち 時 間 が な 
く な る こと で 性 能 向上 が 期待 で き 


ます 。 こ うし た 改良 を 加え た も の を 


は 1 つ 増 加 さ せま す 。 セ マフ ォ ー が  「R/W モ マフ ォ ー| (Reader/Writ 
@Atomic 操 作 命令 た 使わ な い 場合 
CPU1 CPU1 で の 処理 結果 が 
と / 無視 され て し まう 
ーー ププ 0 | 
SS メモ リー 内 デー タ 
8 の 時 系 列 変 化 
CPU2 
@Atomic 採 作 命 令 を 使っ た 場合 
[22520oP0 和 mm 
デー タ の 読み 書き は ブロ ッ ク らん GR の 
ァ ーーーーーー 
ーーー 0 1 | 2 ーーーe- 
に ーーー リー 一 王 53 メモ リー 内 デー タ 
この 期間 は メモ リー バス が ww の 人 


ロッ ク さ れ 、CPU1 以 外 の 
デー タ の 読み 書き は ブロ ッ ク 


図 1 Atomic 操 作 命令 の 動作 例 


指定 メモ リー 内 デー タ を 1 加算 する 場合 の 例 を 挙げ た 。 通常 の 命令 で は 、 他 の CPU の 処理 に よっ て デー タ の 」 
不 整 合 が 生じ る 可能 性 が ある 。Atomic 操 作 命令 は 、 メ モリ ー バ ス を ロッ ク す る こと で 、 こ うし た 問題 が 生 


じ な いよ うに する 特殊 命令 。 


er セマフォ ー) と 呼び ます 。Linux 
カー ネル 空間 内 で は 、 通 常 の セ マ フ 
ォ ー と R/W セ モ マ フォー の 両方 が 利 
用 で きま す 。 ペ ー ジ フォ ルト 時 な ど 
* わ れる 「mmap_sem] な ど が 、 
この R/W セ マフ ォ ー に 当たり ます . 


x86-64 環 境 で は 汎用 版 を 利用 
Linux に は R/W セ モ マ フォー の 2 種 
類 の 実装 が あり ます 。 カウ ンタ ー 変 
数 の 更新 時 に CPU の Atomic 操 作 命 
令 を 利用 する 高速 且 と 、 ス ピン ロッ 
ク *2 を 使用 する 汎用 版 の 2 つ で す 
Atomic 操作 命令 と は 、(1) メモ 
リー か ら の デー タ 読 み 出 し 、(2) 演 
算 、(3) デー タ の メモ リー へ の 書き 
込み 、 と いう 一 連 の 操作 を 他 の CPU 
の 動作 に 影響 され ず に 実施 する た 
め の 命令 で す 1)。 通常 の 命令 
を 利用 する と 、 例 えば CPU1 が (2) 
の 処理 中 に CPU2 が (1) の 処理 を 


始め る 可能 性 が あり ます 。 これ で は 
デー タ の 不 整 合 が 生じ て し まい ま 


す 。Atomic 操作 命令 を 使う と 、(1) 
の 処理 開始 時 か ら メ モリ ー パ ス が 
ロッ ク さ きれ 、(3) が 完了 する まで 他 
の プロ セッ サ は 譜 当 部 分 の メモ リ 
ー の 読み 書き が で き な く な り ま す 


** 1 セマフォ ー の 考案 者 で ある Edsger Dij 
kstra 氏 が オラ ンダ 人 の た め 、 オ ラン ダ 語 の 名 
前 が 付け られ まし た 。 

*2 資源 を 獲得 で きる まで ルー プ を 繰り 返 
し て 待つ ロッ ク 方 式 で す 。 待 ち 時 間 が 多い 
場合 は 、CPU を 無駄 に * と に な り 非 効率 
で す 。 


@ カ ー ネ ル 8.6.33.8 以 前 
i386 以 外 


i386 


これ に より 、 デ ー タ を 安全 に 更新 で 
きま す 

x86 環 境 用 の 高速 且 R/W モ マ フ 
ォ ー で は 、「XADD」 と 「CMPXC 
HG」 と いう Atomic 操 作 命令 が 使わ 
れ て いま す *3。 こ の XADD も CM 
PXCHG も i86 プ ロモ セッ サ 以 降 で 利 
用 可能 に な っ た 命令 の た め 、i386 プ 
ロモ セッ サ の 場合 は 汎用 版 が 使わ れ 
ます ( 図 2 上 ) 

方 x86-64 環境 で は 、CPU に は 
Atomic 操 作 命令 が 存在 する に も か 
か わら ず 、 高速 版 は 用 意 き れず 、 汎 
用 版 の R/W モ マ フォ ー だ けが 使わ 
れ て いま し た 。 過去 に x86-64 で も 
高速 販 を 実装 し よう と いう 動き も 
あっ た の で す が 、「 性 能 は 変わ ら な 
い 」 と いう 意見 が 出 て *4 そ の まま 
に な っ て いま し た 。 


Linus が 変更 を ね じ 込 ん だ 

と ころ が 2010 年 1 月 に 、 ふ と し た 
きっ か け で この こと が 問題 に な り 
ます 。 亀 澤 寛之 氏 ら が 開発 中 の | 投 
機 的 ペー ジフ ォ ル トト 機構 ] の x86- 


し の 


N 


i386 | 
汎用 版 R/W セ マフ ォ ー 
i386 以 外 


| 高速 且 R/W セ マフ ォ ー: 
に PE ミコ 


図 2 x86/x86-64 環 境 に お ける R/W セ マフ ォ ー の 選択 
従来 、xB6-64 環 境 で は 汎用 版 R/W セ マフ ォ ー し か 利用 し て いな か っ た 。 カー ネル 2..33 
3/2.6.34 以 降 で は 、x86-64 環 境 で も 高速 版 R/W セ マフ ォ ー を 利用 する よう に な っ た 。 


64 環 境 で の テス ト 結 果 を 見 た Linus 
Torvalds 氏 が 、x86 版 で は 生じ る 
は ず が な い ス ピン ロッ ク が 発生 し 
て いる こと に 占 問 を 抱い た の で す 
Torvalds 氏 は すぐ に 原因 が R/W モ 
マフ ォ ー に ある こと に 気づき 、 改 良 
を 主張 し ます 

この と きも 、「 性 能 は 向上 し な い 
は ず 」 と いう 意見 が 出 た の で す が 、 
Torvalds 氏 は 「 性 能 は 向上 する 
賭け て も いい 」 と 強引 に 議論 を ま 
と め 、 さ っ さと バッ チ を 作っ て し ま 
いま し た 。 こ の パッ チ は 、 x86 の 高 
速 阪 R/W モ マ フォ ー を x86-64 で 利 
用 する た め の ラ ッ パ ー の 追加 と 、 高 
速 販 の 利用 条件 を 「X86_61 また は 
i386 で は な い 」 に 変え る た め の も の 
で す ( 図 2 下 ) 

パッ チ の 効果 を 2 ソケット 環境 で 
の マイ クロ ベン チマ ー ク に より 検 
証し た と ころ 、 ペ ー ジ フォ ルト 処理 
に お いて 3 倍 も の 性 能 向上 が 認め ら 
れ ま し た 。 こ れ は カー ネル の 改良 
と し て は 驚異 的 な 数 字 で す 。「 そ ら 
見 ろ 」 と 勢い づい た Torvalds 氏 は 、 


「CPO ソケット 数 が 増え る と キャ ッ 
ュ ラ イン 競合 で 問題 が 出る か も 」 
と いう 馬 み 押し 切っ て 、 安 定 販 カ 
ー ネ ル へ の マー ジ を 決定 し まし た 
Torvalds 氏 が 最初 に バッ チ を 』 
ト し て か ら Linus ツ リー へ の マー ジ 
決定 まで の 期間 は わずか 9 日 で す 
同 変更 を マー ジ し た 最初 の 安定 
版 カ ー ネ ル は 、2010 年 4 月 26 日 に 
リリ ー ス され た カー ネル 2.6.33.3 で 
す 。 同 年 5 月 16 日 リリ ー ス の カー 
ネル 26.34 に も この 変更 が 含ま れ て 
いま す 。 そ の 後 、2011 年 10 月 リリ 
ー ス の カー ネル 3.1 で x86 版 と x86- 
64 版 の コー ド が 共通 化 さ れ 、 さ ら 
に 2013 年 2 月 リリ ー ス の カー ネル 
OZ ッ サ の サポ ー ト が 
な く な っ た こと で 、 コ ー ド は 大 幅 に 
整理 され ま し た 。 カ ー ネ ル 3.16 の 時 
点 で は 高速 版 R/W モ セマフォ ー だ け 
が 使わ れ て いま す 


*3 どちら も LOCK プ リフ ィ ッ クス と 併 用 し た 
場合 に Atomic 操 作 命令 と し て 動作 し ます 。 
*4 主要 開発 者 の 一 人 で ある Andi Kleen 
氏 が この 意見 を 述べ て いま す 。 
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ぐ 
。 
っ ガ 


DcrYDt 


暗号 の 並列 処理 用 ラッ パー 


暗号 処 理 を すべ て の CPU コア に 振り 分 け て 並列 処理 させ る ラッ パー で す 。 ブロ ッ ク 暗 号 化 モ ー ド 「AEAD] に 対応 し 、 
マル チ プ ブロ セッ サ 環 境 で の IPsec 暗 号 処 理 を 高速 化 で きま す 。 


CPU コア 単体 の 性 能 向 上 が 技術 
的 に 難し く な っ て きた こと か ら 、 近 
年 で は 、 マ ル チ プ ロ セ ッ サ 化 / マ ル 
チコ ア 化 が 推し 進め られ て いま す 
マル チ プ ブ プロセッサ / マ ル チ コ ア の 人 性 
能 を 生か す に は 、 各 CPU や CPU コ 
処理 を うま く 振り 分 け て 並列 
処理 を 実現 する 仕組 み が 欠 か せま 
せん 

Linux カ ー ネ ル に も 、 さ ま ざ ま 
な 並列 処理 用 の 仕組 み が あ り ま す 
が 、 障 号 化 処理 に つい て は 、 そ 
の よう な 仕組 み が 用 意 き され て い 
ませ ん で し た 。 そ の た め 、CPU 
(コア ) 数 が 多く な っ て も 、 例 えば 、 
IPsec*1 に よる 通信 如 度 は 1CPU 
(コア ) の 場合 と ほとん ど 変 わり ま 
せん で し た *2 

この 状況 を る べく 開発 され 
た の が 「pcryptl と いう 、 購 号 の 
並列 処理 用 ラッ パー*3 で す ( 図 1) 


padata フ レー ム ワ ー ク の 
並列 化 機能 


| っ wm+ > トーニー ニール 
| っ wa+-- ーー テー レ 
TEE コー ンー 2FrrirEe 


DcryDt は 、 こ の 種 の ラッ パー で は 

- 般 的 な 「 並 列 化 / シ リア ライ ズ ] 
処 施し ます 

この 並列 化 / シ リア ライ ズ 処 理 に 
使わ れる の が 、pcrypt と 同時 に カ 
され た 「padata」 と 
いう 汎用 の 並列 処理 フレ ー ム ワー 
ク で す 

padata で は 、 デ ー タ 分 割 用 の キ 
ュー と 、 統 合用 の キュ ー を それ ぞ れ 
CPU (コア ) の 数 だ け 用 意 し ます 
入力 デー タ は 一 定 割 用 
キュ ー に 振り 分 けら れ 、 各 CPU で 
の 処理 を 待ち ます 。 処理 済み の デー 
タ は 統合 用 キュ ー に 格納 され 、 適 切 
な 順序 に 再 統 合 し て 出力 する 仕組 


で す 
で 

各 CPU に 振り 分 けら れ た デー タ 
は 、pcrypt が 呼び 出し た 暗号 化 モ 


ジュ ー ル に よっ て 暗号 化 (ある い は 
復 妨 ) され ます 


padata フ レー ム ワ ー ク の 
シリ アラ イズ 後 能 


暗号 化 / 復 号 処 理 は 各 CPU コ ア で 並列 実行 され る 


図 1 暗号 の 並列 処理 用 ラッ パー 「pcryptl の 仕組 み 


pcrypt は [padatal と いう 汎用 の 並列 処理 フレ ー ム ワー ク を 利用 し て いる 。 入 力 デー タ は 


量 ご と に 分 害 


用 キュ ー に 振り 分 けら れ 、 各 CPU コア で 暗号 化 " 復号 処理 を 並列 実行 する 。 負 理 済み の デー タ は る 合 用 キ 


ュー に 格納 され 、 適 切な 順序 に 再 統合 し て 出力 され る 。 


IPsec 暗 号 処 理 を 高速 化 
pcryDt は 、2010 年 5 月 16 日 に リ 
リー ス さ れ た カー ネル 26.34 以降 で 
利用 で きま す 。 カ ー ネ ル 3.16 ま で の 
時 点 で は 、 認 証 機能 付き の プロ ッ 
ク 暗号 化 方 式 [AEAD」 (Authen 
ticated Encryption with Associat 
ed Data) に 分 類 き され る 処理 だ け に 
対応 し て いま す 
AEAD を 先行 サポ ー ト し て いる 
の は 、 pcrypt が 元々 、 IPsec 暗号 処 
理 の 高速 化 の た め に 開発 され て い 
る か ら で す 。1IPsec で デー タ 部 分 を 
購 号 化す る 「ESP」 (Encapsulated 
Security Payload) と いう プロ トコ 
ル で 、 AD が 利用 され ます 
AEAD は 、AES な どの プロ ッ ク 
吐 号 や 、SHA1 の よう な ハッ シュ 関 
数 と いっ た 複数 の 喧 号 アル ゴリ ズ 
ム で 構成 され ます 。 どう いっ た 組み 
合わ せ の 場合 に pcrypt を 有効 に す 
る か は 、 カ ー ネ ル 内 に 作成 する イン 
スタ ンス で 決定 し ます 
カー ネル 3.16 まで の 時 』 


で は 、 こ 


* 1 IP レベ ル で 認証 や 暗号 化 を 実現 する 
セキ ュ リ ティ ブロ トコ ル で す 。 

*2 欧州 の 複数 の 国 で 2010 年 6 月 に 開 
催さ れ た Linux イ ベン ト 「LinuxTag 2010] 
に お ける Steffen Klassert 氏 の 発表 資料 
か ら 。 発 表 資 料 は 、http://www.linuxtag. 
rg/2010/fileadmin/Www.iinuxtag.org/ 
slides/ か ら 入 手 で きま す 。 

* ネ 3 ラッ パー と は 、 ソ フト 机 能 を 間接 的 に 呼 
び 出 す た め の ミド ルウ エア の こと で す 。 既 存 ソ 
フト に 別 の 機能 や イン タフ ェ ー ス を 追加 する 
の に 利用 し ます 。 


NN 


の イン スタ ンス は 暗号 テス ト 用 モ 
ジュ ー ル 「tcryptl の 読み 込み に よ 
っ て し か 作成 で き ませ ん 。 例 えば 、 
IPsec 用 に pcrypt を 有効 に する に 
は 、 次 の り よ うに モジ ュー ル を 読み 込 
み ま す 

# modprobe tcrypt alg="pcrypt( 


authenc(hmac(sha1-generfc),cbc 
(aes-asm) ))" type=3 ロロ 


alg オ プシ ョ ン に 渡す の が AEAD 
を 構成 する 暗 編 アル ゴリ ズム の 組 
み 合 わせ で 、「type」 オプ ショ ン に 
湊 す の は 号 化 モー ド で す (3 は 
AEAD を 示し ます ) 。 現在 の イン ス 
タン ス の 情報 は 、/proc/crypto フ 
ァイル の 内 容 を 表示 する こと で 調 
べら れ ま す ( 図 2) 

図 3 は 、pcrypt の 開発 者 Steffen 
Klassert 氏 が 実施 し た ペン チマ ー 
ク の 結果 で す *4。4 コ ア の CPU 「Im 
tel Core2 Quad Q6600」 を 搭載 す 
る PC で 、IPsec パ ケッ ト の 転送 速 
度 を 調べ て いま す 。 パケ ッ ト サ イズ 
が 1420 パ イト の 場合 、pcrypt を 有 
効 に する こと で 速度 が 26 倍 も 速く 
な っ た こと が 分 か り ます 。 同時 に 、 
パケ ッ ト サ イズ が 小さ い 場 合 に は 、 
並列 化 の 効果 が 少な いこ と も 見 て 
取れ ます 

また 、 KIassert 氏 の 別 の テス ト に 
よる と 、8 コ ア 程 度 ま で は コア の 増 
加 に つれ て 性 能 が 向上 する よう で 
二 


: authenc(hmac(sha1 ) ,cbc(aes ) ) 
: PCrypt(authenc(hmac(sha1-gener1c ) ,Cbc(aes-aSm) ) ) 


: pcrypt 
: 2100 
1 


selftest 
type 

8SyYnC 
blocksize 
1vsfze 
maxauthsize 


: passed 


: <bu11t-1n> 


pcrypt を 利用 する AEAD ア ル ゴ リ ズム と 
モジ ュー ル の 対応 。 優先 度 が 高い 


pcrypt か ら 呼 び 出さ れる AEAD ア ル ゴ リ 
ズム と モジ ュー ル の 対応 。 優先 度 は 低い 


: authenc(hmac(sha1 ) .cbc(aes ) ) 
: authenc(hmac(sha1-generic),cbc(aes-aSm) ) 


: authenc 
: 2000 


図 2 /proc/crypto フ ァイル の 内 容 


暗号 イン スタ ンス の 情報 は 、/proc/crypto フ ァイル の 内 容 で 調べ られ る 。pcrypt 用 の 設定 は 高い 優先 度 に 


な っ て いて 、 先 に 呼び 出さ れる こと が 分 か る 。 


dm-crypt で も 
対応 の 動き 

2010 年 6 月 に 入っ 
て 、 暗 号 化 プ ロッ ク 
デパ イス |qdm.-cryptl 

も pcrypt を 利用 し 
よう と いう 動き が 始 
まり まし た 。 前述 し 
た 通り 、pcrypt は 現 
状 で は AEAD に し か 
対応 し て いま せん か 
ちら 、dma.crypt で 利用 
する に は 「ABLKCIP 
HER] (非同期 プロ ッ ク 剛 号 化 ) か 、 
「BLKCIPHER」 (同期 プロ ッ ク 暗号 
化 ) の いずれ か の 暗号 化 タ イプ を サ 
ポー ト す る よう に pcrypt を 拡張 す 
る 必要 が あり ます 。 開発 は 停 沙 し て 
お り 、 カ ー ネ ル 3.16 の 時 点 で は pcr 
Ypt の 拡張 を 含め て 、 晶 に 見 える 成 
果 は 出 て いま せん 

また 、pcrypt を 実用 的 に 使う に 


IM ビッ ト / 秒 
so 


pcryPt 無 効 
pcrypt 有効 


| 軸 | 
128 


1420 


パケット サ イズ 時 位 バイ ト 


図 3 pcrypt の 利用 に よっ て IPsec 転 送 速 度 が 向上 

Steffen Klassert 氏 が 実施 し た ペン チマ ー ク の 結果 。 4 コア の CPU を 
搭載 する PC で 、IPsec パ ケッ ト の 転送 吉 度 を 調べ て いる 。 パ ケッ ト 
サイ ズ が 1420 バ イト の 場合 、pcrypt を 有効 に する こと で 2.6 億 高速 
化し て いる 。 


は 、 も っ と ユー ザー が 操作 し や すい 
管理 イン タフ ェ ー ス が 必要 で す 。 ど 
うい っ た イン タフ ェ ー ス が 最適 な 
の か に つい て は 議 庄 中 で 、 イ ンタ フ 
ェ ー ス が 吉 備 され る まで に は し ば 
らく 時 間 が か か る 見 込み で す 

*4 カー ネル ML に 同氏 が 投稿 し た メー ル 


(http:/7Ikmlorg/IkI/2009/12/23/30) 
に 基づき ます 。 


S さ 
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3> 


tty の EXTPROC フ ラグ 対応 
遅延 が 大 きい 回 線 で も 快適 操作 


適 な コマ ンド 操作 を 実現 で きま す 。 


2L uu 


Linux で は 、TelInet や SSH を 使 
っ た リモ ー ト ログ イン 時 に は 、 入 
を 1 文字 ずつ サー パー に 
る 「 キ ャ ラク ター モー ド * 
で 端末 が 動作 し ます ( 図 1 上 ) 

般 に この キャ ラク ター モー ド で は 、 
入力 し た 文字 は ロー カル 端末 
直接 は 表示 せ ず 、 サ ー バ パー か ら エ 
コー パッ ク さ れる デー タ を 表示 し 
ます 。 キ ャ ラク ター モー ド が 標準 
に な っ て いる の は 、 実 装 が 簡単 な 
こと に 加え 、 コ マン ド 履 歴 の 呼び 
出し や 入力 補完 機能 と いっ た シェ 


ル の 高度 な コマ ンド 行 編集 機能 を 
利用 し や すい か ら で す 
し か し キャ ラク ター モー ド に は 、 


ドー タ が 増加 3 す る 問題 が あり 


た 0 mp ムッ ダー と TC IP ペッ ダー 
の 合計 が 最小 で も 40 バ イト ある こ 
と を 考慮 する と 、 最 低 で も 82 バ イ 
ト の 通信 が 必要 に な り ま す 。 カ ー 
ソル の 移動 や 削除 な どの 編集 操作 
に よっ て も 通信 が 発生 し ます 

また ASME LSE 
力 し た ささ れる まで 時 間 
が か か り 、 操 作 性 を 悪化 させ て し 
まい ます 

この よう な 問題 を 避け る た め 、Te 
Inet に は 「 ラ イン モー ド *2] が 用 意 
され て で いま す 。 ラ イン モー ド で は 、 
コマ ンド 行 の 編集 は クラ イア ント 
側 で 実施 し ます ( 図 1 下 )。 入 力 し 


キ と メー の 動作 


コマ ンド 行 の 入力 、 編集 作業 を クラ イア ント 側 で 実施 する た め の フ ラグ で す 。 遅延 が 大 き な 回 線 経由 の アク セス で も 快 


通信 時 に は 、 最 小 で も 40 バ イト の ヘッ ダー 


入力 文字 は 1 文字 ずつ 送信 ES 通信 デー タ 量 が 多く な る ] 


ア / 


) 記 ニ 一 一 ヘッ ター 翌 | 
ifconfi |g ee に の 


ifconfi 」g 


っ ンド 端末 に は サー バー が 
22ESAT Rg 
編集 | 近 送 し た 文字 を 表示 


アァ 
トド ーー ペーーーー。 
クラ イア ント コマ ンド 行 は 
クラ イア ント 側 で 編集 


編集 済み の コマ ンド 行 を まとめ て サー バー 
に 送信 する の で 通信 効率 が 高い 
| 


1fconfi |g 一 ヘッ ター ifconfig -* に 


| 
1fconfig 


サー バー 


図 1 Telnet の キャ ラク ター モー ド と ライ ン モ ー ド 

入力 文字 を 1 文字 ずつ サー バー に 送信 し な が ら コ マン ド 行 を 絹 集 する の が 「 キ ャ ラク ター モー ド 」。 家 延 が 大 
き な を 回線 衝 由 で の アク セス 時 に は 、 編 集 操作 の レス ポン ス が 悪化 し て 操作 が し づら く な る 。 一 方 、 コ マン 
ド 行 の 編集 を クラ イア ント 側 で 実施 し 、 編 集 済 み の 行 を 一 括 し て サー バー に 送信 する 「 ラ イン モー ド 」 で は 


この よう な 間 題 は 生じ な い 。 


サー パー カー ネル 2.6.36 で 
EXTPROC フ ラグ 対応 
トド ブフ ご 5759 


telnet ク ライ アン ト 。 さ ー ぁ telnet サ ー バ ー 一 ぁ tty ド ライ バ 4ー シ シェ ル 


ライ ン モ ー ド を サポ ー ト する に は 、 サ ー バ ー 側 の この 4 つの ソフ トウ エア が 、tV ド ラ 
イ バ の ライ ン モ ー ド 用 フラ グ (EXTPROC フ ラグ ) に 対応 し て いる 必要 が ある 


図 2 ライ ン モ ー ド 実現 に 変更 が 必要 な ソフ トウ エア 
サー バー 側 の 4 つの ソフ トウ エア に 対応 が 必要 。 多く の Telnet ク ライ アン ト は ライ ン モ ー ド に 対応 済み な の 


で 、 通 常 は そちら は 変更 不要 。 


た 文字 は 直接 ロー カル 端末 に 表示 
きれ 、【[Enter] キー を 入力 し て コ 

マン ド 行 を 確定 する まで 、 サ ー バ パー 
と の 通信 は - 切 行い ませ ん 。 その た 
め 、 回 線 状 況 に か か わら ず 、 コ マン 
ド 入 力作 業 を 快適 に 実施 で きま す 


*1 [character at a time モ ー ド 」 と も 呼 
び ま す 。 同 モー ド 利用 時 の 端末 や シェ ル の 動 
作 設定 は 「raw モ ー ド 」 に な り ます 。 

キネ 2 編集 済み の 文字 列 を 受け 取る こと か 
ら 、 ラ イン モー ド 利 用 時 の 端末 や シェ ル の 動 
作 設定 は 「cooked モ ー ド ] と 呼び ます 。 


NN NN ペク クー 凍 称 


また 、 コ マン ド 文 字 列 は 行 単 位 に ま 
と め て サー バー に 送信 きれ ます か 
ら 、 通 信 効 率 も 良く な り ま す 


使用 不能 だ っ た ライ ン モ ー ド 

Telnet の ライ ン モ ー ド は 、1990 年 
に 公開 され た RFC1184 に 規定 し 
あり 、BSD 系 の UNIX で は 早く か 
ら こ れ を サポ ー ト し て いま し た 

ライ ン モ ー ド を サポ ー ト する に 
は 、 カ ー ネ ル の tty ドラ イ バ *3 が 、 
端末 機能 の 一 部 を 外部 プロ グラ ム 
に 委譲 する 仕組 み を 備え 、 特 定 の 
フラ グ に よっ て 動作 を 切り 替え ら 
れる よう に な っ て いる 必要 が あり 
ます ( 図 2)。BSD 系 の UNIX で は 
「EXTPROC」 と いう フラ グ が 使わ 
れ て いま す 。 ま た 、 そ の カー ネル 機 
能 に 対応 し た C ラ イプ ラリ も 必要 で 
す 。 さ ら に 、 サ ー バ ー 側 で 稼働 する 
シェ ル も 、 ラ イン モー ドド 対応 で な け 
れ ば な り ま せん 

し か し Linux の tty ドラ イ バ に は 、 
その よう な 仕組 は あ り ませ ん で 
し た 。1999 年 11 月 に tty ドラ イ バ 
を EXTPROC フ ラグ 対応 に する パ 
ッ チ が カー ネル メー リン グリ スト 
に ポス ト さ れ ま し た が 、 関 心 を 引か 
な いま ま 忘 れ 去 られ て いま す 。 カー 
ネル 以外 の ソフ ト で も 対応 は 進ん 
で お ら ず 、 結果 と し て 、Linux で は 
ライ ン モ ー ド は 使用 不能 な 状況 が 
続い て いま し た 

2010 年 6 月 に 、 先 の パッ チ を 開発 


し た 開発 者 が 再び バッ チ を ポス ト 
し た で 状況 が 変わ り ま す 
チ そ の も の は 11 年 前 と ほとん ど 同 
に の で す が 、 ス マー ト フ ォ ン 
アク セス を 例 に 
vTelnet サ ー バ ー と SSH 
、bash を ライ ン モ ー ド 対 
応 に する パッ チ を 同時 に 公開 し た 
な ど に より 、 カ ー ネ ル 開発 者 の 
興味 を 引く こと に 成功 し た の で す 
この と き の EXTPROC フ ラグ 対応 
パッ チ は 、 わ ず か な イン タフ ェ ー ス 
の 修正 程度 で 、 す ぐに カー ネル に マ 
ー ジ され まし た 

EXTPROC フ ラグ 対応 の tty ドラ 
イ バ は 、 カ ー ネ ル 26.36 か ら 利 用 で 
きま す 。 ま た 、2011 年 2 月 リリ ー ス 
の GNU C ラ イプ ラリ (glibc) の バ 
ー ジ ョ ン 2.13 で 、 こ の 変更 に 対応 す 

る コー ド が マー ジ さ れ ま し た *4 


パッ 


サー バー と シェ ル に 修正 が 必要 
Telnet で ライ ン モ ー ド を 利用 す 


る 場合 は 、Telnet サ ー バ ー と サー 
パー 側 の シェ ル に パッ チ を 当て て 
再 構築 する 必要 が あり ます 
チ は 、「OpenSSH-LINEMODE」 の 
Wiki 経 貼 で 入手 で きま す *5 
チ は 、netkit-Telnet-0.17 と bash-4.1 
向け の も の で す 

実際 に パッ チ を 適用 し た サー バ 
ー 環 境 を 作成 し た と ころ 、Fedora 
11 の Telnet ク ライ アン ト な どか ら 
の 接続 時 に デフ ォ ル ト で ライ ン モ 


パッ 


パッ 


ーー 人 人 


ー ド が 利用 で きま し た 。 多 く の Tel 
net ク ライ アン ト が ライ ン モ ー ド に 
対応 し 、 最 初 に ライ ン モ ー ド で の 接 
続 を 試み ます の で 、 対 応 ク ライ アン 
ト で あれ ば 特別 な 設定 を せ ず に ラ 
イン モー ド が 利用 で きま す 

な お 、 現状 の パッ チ で は 、 ラ イン 
モー ド 接 続 時 に は 、 コ マン ド 履 歴 の 
参照 や コマ ンド 補完 は 利用 で きま 
せん 。 正確 に 言う と 、 機 能 自 体 は 
利用 で き 7 コマ ンド 編集 行 
に 履歴 や 補完 し た コマ ンド 文字 列 
を 表示 で きま せん 。 ま た 、netkit- 
TelneL017 の Telnet サ ー バ パー に は 
リモ ー ト か ら root 権 限 を 取 され 
る 恐れ が ある セキ ュ リ ティ ホー ル 
が 存在 し て いま す 。 カー ネル 機能 の 
実証 用 に 限定 し て 使い 、 実 運用 する 
の は 遊 け る よう に し まし ょ う *6 

OpenSSH-LINEMODE の サイ ト 
に は 、 名 前 の 通り 、SSH サー パ ー 
を ライ ン モ ー ド 対応 に する バッ チ 
も 存在 し て いま す 。 SSH サ ー パ バー 向 
け の パッ チ で は 、 コ マン ド 履 歴 の 参 
照 や 、 リ モー ト / ロ ー カ ル 環 境 を 参 
照 し た コマ ンド 補完 機能 な ども 実 
装 し て いま す 


*3 端末 を 制御 する た め の ド ライ バ で す 。 
*4 Fedora の 開発 版 パッ ケー ジ で は 、gli 
bc 2.12.90-8 以 降 で 対応 し て いま す 。 

*5 Wiki は 「http://wiki.github.com/ 
hyc/OpenSSH_LINEMODE/」 で す 。 

*6 同 問題 へ の 対策 に つい て は 「http:7/ 
www.sfu.ca/-siegert/linux-Security/ 
msg00132.html] な ど を 参照 し て くだ さい 。 


iptables の CHECKSUM ター ゲッ ト 
不 完全 な チェ ッ ク サ ム を 補完 


IP/UDP/TCP ヘ ッ ダ ー 内 に ある チェ ッ ク サ ム 加 工 用 の Netfilter タ ー ゲ ッ ト で す 。 チェ ッ ク サ ム が 不 完全 な パケ ッ ト の 


チェ ッ ク サ ム を 再 計算 し て 補完 で きま す 。 


IP や TCP、UDP バ パケット の ヘッ 
ダー に は 、 パ ケッ ト の 情報 が 正しい 
か どう か を 検証 する た め の チ ェ ッ ク 
サム デー タ が 記録 され て いま す *! 
Linux の ネッ トワ ー ク 処理 層 は 、 パ 
ケッ ト の 送信 時 ( ッ ク サ ム を 
算出 し て ヘッ ダー に 格納 し 、 パ ケッ 
ト の 受信 時 に 再度 チェ ッ ク サ ム を 
算出 し て 、 送 られ た チェ ッ ク サ ム と 
の 比較 を 実施 し ます 

チェ ッ ク サ ム は 高速 に 算出 で き 
る よう 1 れ て いま す が 、 通 信 束 
度 が 、 送 受信 する パケ ッ ト の 
数 が 増え る と 、CPU に か か る 負荷 
も 高く な り ま す 。 場 合 に よっ て は 、 
CPU の 処理 能力 が ボトル ネッ ク と 
な っ て 通信 回 線 の 能力 を 十分 生か 
せな い ケ ー ス も 出 て きま す 

CPU の 負荷 軽減 の た め 、 最 近 の 
NIC(Network Interface Card) は 、 
チェ ッ ク サ ム 人 算出 や 検証 と いっ た 
処理 を 単体 で 実施 する 機能 を 
て いま す 。 こ の よう な NIC に チェ 
ッ ク サ ム 処 理 を 任せ る こと を 「chec 
ksum ofiloading| と 呼び ます 

現在 利用 し て いる NIC で checks 
um ofloading が 有効 か どう か は 「et 
htooll コ マン ド を 利用 すれ ば 分 か り 
ます *2。 管 理 者 権限 で 次 の よう に 
コマ ンド を 実行 し ます 


# ethtoo] -k ethO ロ 


「eth0| の 部 分 に は 調査 し た い 


NIC の デバ イス 名 を 語 
「rx-checksumming| 項目 に 表示 
きれ る の が 受信 時 の 、「tx-check 
summing| 項目 に 表示 きれ る の が 
送信 時 の checksum ofloading 機 能 
の 有効 無効 の 情報 で す ( 図 1) 

設定 を 変更 する 場合 は 、cthtool 
コマ ンド を 「-K」 (K は 大 文字 ) ォ 
プシ ョ ン 付 き で 実行 し ます 。 例 え 
ば 、 送 受信 どちら も 有効 に する 場合 
は 、 次 の コマ ンド を 管理 者 権限 で 実 
行 し ます 


# ethtoo]1 -K ethOrxontxon 避 


た だ し 、NIC に 機能 が な い 場 合 
や 、 ド ライ バ が 未 対応 の 場合 な ど に 
は 有効 に で きま せん 


dhclient な ど で 問 題 に 

checksum oflloading 機 能 が 有効 
に な っ て いる と 、Linux の ネッ トワ 
ー ク 処理 層 は チェ ッ ク サ ム の 算出 
を せ ず 、 代 わり に 「CHECKSUM_ 
PARTIAL」 と いう フラ グ を バケ ッ 


NIC は この フラ グ が ある パケ ッ ト 
を 受け 取る と 、 チ ェ ッ クサ ム を 算出 


し て ヘッ ダー に 設定 し て 送信 し ま 
す 。 つ まり 、 ネ ットワーク 処理 層 
か ら 送 出さ れ 、NIC に 到達 する まで 


の パケ ッ ト は 不 完全 な チェ ッ ク サ 
ム し か 持っ て いな いわ け で す 。 実際 


に 「wireshark] な どの パケ ッ ト 監 
視 ツ ー ル を 使っ て 、 送 出 途 中 の パケ 
ッ ト を 調べ る と チェ ッ ク サ ム エ ラ 
り ま す 

通常 は これ で も 支障 な い の で す 
が 、 仮 想 化 ソ フト を 利用 し て いる 場 
合 の よう に 、 物 理 的 な NIC を 経由 
せ ず に 通信 する ケー ス で 間 題 が 生 
じ る こと が あり ます ( 図 2)。 正 し 
い チ ェ ッ クサ ム が 付加 され < 
内 部 的 に パケ ッ ト が 転 れ て し 
まい 、 受 信 側 で 不正 な デー タ と みな 
され て 通信 が で き な く な る こと が 
ある の で す *3. 

正しく 動作 し な い ア プリ ケー シ 
ョ ン の 一 例 が 、DHCP ク ライ アン 
ト の 「qhclient| で す 。Fedora や 
RHEL (CentOS) な ど に 含ま れる 
dhclient に は 、 チ ェ ッ クサ ム メ 検 証 回 
人 避 用 の パッ チ が 適用 きれ て いま す 
の で 問題 が 顕在 化し ませ ん が 、Ub 
untu な ど 他 の ディ スト リ ビ ュ ー シ 
ョ ン に 含ま れる も の や 、ISC (Inter 


キネ 1 TCP や UDP パ ケッ ト の 場合 は 、 パ ケッ ト デ ー タ 全体 が 正しい か どう か の 検証 用 、IP パ ケッ ト の 
場合 は 、IP ヘ ッ ダ ー 内 の 情報 が 正しい か どう か を 検証 する た め の チ ェ ッ クサ ム が 記録 され て いま す 。 
*2 ethtool コ マン ド は 、Ubuntu/Fedora の いずれ も 「ethtool] パッ ケー ジ を 導入 する と 利用 で 


きま す 。 


*3 この 場合 で も 、 通 信 方 法 に よっ て は 「CHECKSUM_PARTIAL」 フ ラグ の 有無 を 判別 し て チェ 


ッ ク サ ム の 検証 を 回 選 で き 、 問 


な く 通信 が 可能 で す 。 
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NN 


net Systems Consortium) か ら 直 
接 ソ ー ス を 入手 し て ビル ド し た dhc 
lient で は し ば し ば 問題 に な り ま す 

過去 に いく つか の adq-hoc な ( 場 
当たり 的 な ) 対策 が 考え られ て き 
まし た 。 例 えば 、 仮 想 化 ソフト 「qe 
mul の パー ジョ ン 0.12 以 降 に 含ま れ 
る 「virtionet] と いう 仮想 ネッ ト 
ワー ク ド ラ イ バ に は 、 チ ェ ッ クサ ム 
が 不 完全 な DHCP (BOOTP) パケ 
ッ ト が ある と チェ ッ ク サ ム を 再 計 
算 し て 補完 する コー ド が 含ま れ て 
いま す 

カー ネル 内 に 対策 コー ド を 入れ 
よう と いう 動き も あり まし た 。 し か 
し 、 特 定 の プロ トコ ル を 決め 打ち で 
場当たり 的 な 対処 を する の は 良く 
な いと いう 意見 が あり 、 見 : 
て いま す 。 代 わり に カー ネル 26.36 
に 導入 きれ た の が 、iptables (Netii 
lter) の CHECKSUM ター ゲッ ト で 
す 。 

iptables に お ける 「 タ ー ゲ ッ ト ] 
と は 、 パ ケッ ト に 対す る 操作 を 定義 
し た も の で す 。 CHECKSUM ター 
ゲッ ト は 、 パ ケッ ト の チェ ッ ク サ ム 
の 加工 操作 を 定義 し ます 。 カ ー ネ 
ル 3.16 まで の 時 点 で は 、 パ ケッ ト を 
再 計 算 し て 補完 する 「-checksum- 
加 ] と いう 操作 だ けが 定義 きれ て い 
ます 。 こ れ を 使っ て 、 前 述 の dhcii 
ent の 間 題 に 対処 する 場合 は 、dhcl 
ient を 稼働 きせ る ホス ト 上 で 次 の コ 
マン ド を 管理 者 権限 で 実行 し ます 。 


NNy 


# ethtoo] -k ethO 器 

0ffload parameters for eth0: 
Trx_checksumming: on 
scatter-gather: on 
tcp-segmentat1on-offload: on 
udp-fragmentatfon-offload: off 
generfc-segmentat1on-offload: on 
generic-receive-off1oad: on 
1arge-recefve-offload: off 


図 1 checksum offloading 機 能 が 有効 か どう か の 調査 

現在 利用 し て いる NIC で checksum offloading が 有効 か どう か は 、ethtool コ マン ド を 利用 すれ ば 分 か る 。 
「rx-checksummingl 項 目 に 表示 され る の が 受信 時 の 、「tx-checksumming] 項 目 に 表示 され る の が 送信 時 
の 、checksum offloading 要 能 の 有効 / 無 効 の 情報 だ 。 


checksum offloading 機 能 の 有 
効 / 無 効 は ここ で 判別 。 こ の 場 
合 は 、 送 受信 と も に 有効 (on) 


ゲス ト OS 


dhclient な ど チェ ッ ク サ ム エ ラ ー 


ネッ トワ ー ク 処理 飛 


CHECKSUM_PARTIAL 


不 完全 な チェ ッ ク サ ム 
の パケ ッ ト 


チェ ッ ク サ ム の 算出 完全 な チェ ッ ク サム 付き パケ ッ ト 


図 2 仮想 化 ソ フト を 利用 する 場合 な ど に 問題 が 発生 

checksum offloading 要 態 を 有効 に する と 、 間 題 が 生じ る こと が ある 。 例え ば 、 仮 起 化 ソ フト を 利用 し て い 
る 場合 の よう に 、 物 理 的 な NIC を 経由 せ ず に 通信 する ケー ス な ど だ 。 正しい チェ ッ ク サ ム が 付加 され る 前 に 
内 部 的 に パケ ッ ト が 転送 され る 。 こ の パケ ッ ト を 受け 取っ た 受信 側 で 不正 な デー タ と みな され る と 、 通 信 
で き な く な る 。 


きま す 。 同 オプ ショ ン を 有効 に す 
る 際 は ほ 、「CONFIG FILTER_ 
ADVANCED」 オプ ショ ン も 有効 
に する 必要 が あり ます 。 ま た 、 パ 
ケッ ト 加 工 用 の 「mangle テ ー ブ ル 」 
を 使用 する の で 、「IP_NF_MANG 
LE] か 「IP6 NGLE」 の ど 
ちら か も 有効 に し て で お か ね ば な り 
ませ ん 


# fptables -A POSTROUTING -t m 
angle -p udp --dport bootpc -} 
CHECKSUM --checksum-f111 ロ 


CHECKSUM ター ゲッ ト は 、「CO 
NFIG_NETFILTER_XT_TARG 
ECKSUM」 と いう オプ ショ 

効 に し て ビル ド し た パー ジ 

ョ ン 26.36 以 降 の カー ネル で 利用 で 


a 


ぐふ 


jump label 


条件 判断 を な くし て 高速 化 


カー ネル を 動 的 に 書き 換え て 高速 化 を 実現 する 仕組 み で す 。 性 能 計測 機能 や トレ ー ス 機能 な どの 使用 不 使用 を 決め る 条 


件 判断 部 を 削除 で きま す 。 


人 隔 還 


Linux カー ネル に は 、 性 能 計測 機 
能 や トレ ー ス 機能 を 呼び 出す ポイ 
ント が 多数 存在 し て いま す 。 従来 こ 
の 部 分 は 、 ト 上 の よう な 条件 式 を 
含む コー ド に な っ て いま し た 。 通常 
は 、 性 能 計測 機能 や トレ ー ス 機能 は 
使わ な いた め 、 条 件 判断 文 に は unli 
kely0* と いう マク ロ 関 数 を 付加 し 、 
条件 式 が 偽 と な る ケー ス で 高速 化 
する よう に 最適 化し て いま す 

し か し それ で も 、 条 件 判断 が 必 
要 な 点 は 変わ り ま せん 。 条件 判断 の 
際 、 ス テー タス 参照 に よっ て 主 メ モ 
リー へ の アク セス が 生じ れ ば 、 性 能 
は 低 ます 。 ト レー スポ イン ト 
ど が 多く な る に つれ で 影響 は 
に 大き く く な り ま す 

2011 年 1 月 4 日 に リリ ー ス され た 
カー ネル 2637 に は 、 こ の 性能 低 
問題 を 解消 する た め 、「jump lab 
el と いう 仕組 み が 用 意 さ きれ まし た 
先ほど の トレ ー ス ポイ ント 用 コー 
ド は 、 図 1 下 の よ うに JUMP_LAB 
EL0 と いう マタ クロ 関数 を 利用 する 
も の に 変更 きれ て いま す 。 マ クロ 
関数 の 引数 に 指定 する key は 性 能 
計測 機能 セト レー ス 機 能 の 有効 無 
効 を 管理 する フラ グ の アド レス 、 la 
bel は 性 能 計測 や トレ ー ス 機能 を 有 
効 に し た 際 の ジャ 

JUMP_LA 
jump label が 有効 な 場合 、 特 定 の 
長き (x86 で は 5 バイ ト ) の NOP 命 
令 *1 と 、 カ ー ネ ル の デー タ 領 域 に 


画 カ ー ネ ル 2.6.36 ま で の コー ド 条件 式 が 真 で あれ ば トレ ー フ 実 
行 。 作 な ら 何 も し な い 
statfc fnline void trace_ 召 name(proto) 
{ 


1f (unlikely(__tracepo1nt_##name.state)) 
DO_TRACE(&_tracepo1nt_ 放 name。 
TP_PROT0(data_proto ) 
TP_ARGS(data_ar9s ) ) : 


一 カ ー ネ ル 2.6.37 の コー ド この マク ロ 関 数 は NOP 命 令 に 
置換 され る 
statfc fnline vod trace_ 召 name(proto) 
{ 


JUMP_LABEL(&__tracepo1nt_ 如 name.state, doO_trace): 
return: 
do_trace: 
00_TRACE(&__tracepofnt_#name, 
TP_PROT0(data_proto) , 
TP_ARGS(data_aros ) ) : 


ーー 了 す る の 
で 


} 


図 1 jump label 導 入 に よる トレ ー ス ボイン ト 用 コー ド の 変化 
ここ に は 、include/linux/tracepoint.h で 定義 され る マク ロ を 、 分 か りや すく 編集 し た も の を 挙げ て いる 。 
jump label 導 入 に より 、 条 件 判断 処理 が 省 か れ て いる こと が 分 か る 


ルト で は 、 こ の トレ ー ス 関数 は 何 も 
実行 せ ず に 終了 する だ け の も の と 


デー タ 列 を 追加 する 疑似 命令 *2 と 
に 展開 され ます 。 疑 似 命令 が 追加 す 
る の は 、key と label、NOP 命 令 の な り ま す 。 条 件 判断 は 必要 な く な 
挿入 先 ア ドレ ス 、 の 3 種類 の デー タ り 、 性 能 低下 も 生じ ませ ん 。 ベ ンチ 
で す マー ク テ ス ト で は 、 従 来 コー 比 

実行 コー ド と し て 展開 され る の べ 、30 一 80 サ イク ル 程 度 の 高速 化 
は NOP 命 令 だ け で すか ら 、 デ フォ が 確認 され て いま す 


【unlikely0】 条件 式 が 偽 と な る ケー ス で 高速 に な る よう な 最適 化 を 指示 する マク ロ 関 数 。 逆 に 真 
と な る ケー ス 向 け の 最 化 を 指示 する likely() と いう マク ロ 関 数 も あり ます 。 コ ン パ イラ は 、CPU の 分 
岐 予測 が 効果 的 に 働く よう に 命令 の 順序 を 入れ 替え て 最適 化 を 施し ます 


* ネ 1 NOP 命 令 と は 何 も し な い 命令 の こと 。 専 用 の CPU 命令 を 使う ほか 、 次 の 命令 に ジャ ンプ させ 
る 、 副 作用 が な いよ うな 演算 を 行う 、 な ど 同 等 の 処理 を する 命令 列 は いく つか 考え られ 、 ど れ が 最適 
か は CPU に よっ て 異な り ま す 。Linux カ ー ネ ル は 、 初 期 化 時 に CPU に 最適 な 5 バイ ト 長 NOP 命 令 
調べ 、 そ れ を ideal_nop5 配 列 に 格納 し ます 。 jump label で も これ を 使い ます 。 

* ま 2 ここ で は 、CPU の 命令 に 変換 され ず 、 ア セン ブラ に 特定 の 動作 を 指示 する 命令 の こと を 指し 
ます 。 


jmp 1abel 


1abel: 
トレ ー ズ 実行 用 コー ド 
に トレ ー ス 実行 用 コー 
ド が 、 条 件 判断 な し 


ジャ ンプ 命令 を 再度 NOP 命 
令 に 置き 換え る 


ーJump_table セ クシ ョ ン 


NOP 挿 入 先 アド レス | label | key 
NOP 挿 入 先 ア ドレ ス | label | key 
NOP 挿 入 先 ア ドレ ス | label | key 
NOP 挿 入 先 ア ドレ ス | label | key 


カー ネル を 動 的 に 書き 換え 

性 衣 軸 機能 や レー スズ ス 機能 を 

- る の で し ょ うか 

機能 を 有効 に する に は 、 jump_lab 
el_enable(key)| と いう 関数 を 実行 
し ます 。 こ の 関数 は 、 デ ー タ 領域 に 
ある テー プ ブル か ら 、 key に 対応 する 
NOP 命令 の 挿入 先 テ ドレ ス と 、 lab 
el デー タ を 取り 出し 、 そ れ を 使っ て 
NOP 命 令 え ジャ ンプ 命令 に 書き 換 
えま す ( 図 2)。 ジ ャ ンプ 先 は label 
が 指し 示す 位置 で す 

この よう に カー ネル の コー ド を 
動 的 に 書き 換え る こと で 、 性 能 計測 
機能 や トレ ー ス 機能 が 有効 に な り 
ます 。 有 効 に し た 際 も 条件 判断 は 不 
要 な の で 性 能 悪 化 を 抑え られ ます 

再度 、 機 能 を 無効 に する 場合 は 、 
jamp_label_disable(key)] と いう 
関数 を 実行 し ます 。 こ れ に より 、 ジ 
ャ ンプ 命令 は 再び NOP 命 令 に 置き 
換え られ ます 。 


goto asm 対 応 の GCC が 必要 
jump label は 、CONFIG_JUMP_ 

LABEL と いう 設定 変数 に 「y] を 

設定 し て カー ネル を ビル ド す る と 


有効 に な り ま す 。 jump label が 無効 
の 場合 は 、JUMP_LABEL0 マ クロ 
関数 は 、 従 来 と 同じ 、 条 件 判断 を 
伴う コー ド に 展開 され ます 

jump label を 有効 に する に は 、 カ 
ー ネ ル の ビル ド に 使う GCC (GNU 
Compiler Collection) が 「asm go 
to] と いう 文 を サポ ー ト し て いる 必 
要 も あり ます 。 公式 に は パー ジョ ン 
45 以 降 の GCC で サポ ー ト きれ ます 
が 、 デ ィ ス トリ ビュ ーション に よっ 

て は それ 以前 の バー ジョ ン の GCC 
で も サポ ー ト し て いる ケー ス が あ 
り ま す 

現在 利用 し て いる GCC が asm 
goto 文 を サポ ー ト し て いる か どう 
か は 、 カ ー ネ ル の ソー ス ツ リ ー に あ 
る スク リプ ト を 次 の よう に 実行 す 


に 常に 実行 され る 


図 2 性 能 計測 機能 や トレ ー ス 拉 能 を 有効 無効 に する 際 の 処理 

机 能 を 有効 に する に は 、jump_label_enable (key) と いう 閲 数 を 実行 する 。 こ の 関数 は デー タ 祝 域 に ある テー ブ 
ル を 参照 し 、 そ の デー タ を 使っ て NOP 命 令 を label に 移動 する ジャ ンプ 命令 に 書き 換え る 。 ジャ ンプ 命令 を 再び 
NOP 命 令 に 置き 換え る jump_labal_disable(key) と いう 関数 を 実行 すれ ば 、 櫻 能 は 無効 化 され る 。 


れ ば 分 か り ます. 


# sh scripts/gcc-goto.sh gcc 避 


実行 後に 「y」 と 表示 され れ ば サ 
ポー ト 、 何 も 表示 され な けれ ば 未 サ 
ポー ト で す 。 カ ー ネ ル ビル ド 時 に は 
この スク リプ ト に よっ て 自動 的 に 
テス ト が 行わ れ 、 未 サポ ー ト の 環境 
の 場合 は 、jump label を 無効 に 設定 
し ます 

な お 、IJUMP_LABEL() マ クロ 関 

で は 廃止 き 
れ 、 代 わり に 「static_branch0」 と 
いう 関数 を 使う よう に な り ま し た 。 
きら に カー ネル 34 以 降 で は 、 よ り 
柔軟 性 の ある 「Static Keys] と い 
う 仕 組み が jump label を ベー ス に 
実装 され て いま す 。 こ の 仕組 み に 
つい て は 、 カ ー ネ ル 付属 の 「static- 
keys.txt| と いう 文書 を 参照 し て く 
だ さい 


< べき 


CN 


N 
< 
ミッ ッ シ ン ン 


IP set 


IP アド レス 等 の グル ー プ を 生成 可能 


netfilter の 処理 対象 と な る IP アド レス や MAC ア ドレ ス を グル ー プ 化す る 仕組 み で す 。 ルー ル 数 を 減ら すこ と で 、 バ ケ 
ッ ト 処 理 の 高速 化 や 管理 効率 化 を 実現 で きま す 。 


に ku 
ク 


Linux カー ネル は 「netfilter」 と 
いう パケ ッ ト フ ィ ル タリ ング 機構 
を 備え て いま す 。netfilter で は 、 さ 
ま ざ ま な パケ ッ ト 処 理 用 の ルー ル 
を ユー ザー が 設定 し 、 通 信 処理 の 
さま ざま な 場所 *! で その ルー ル に 
基づい た パケ ッ ト 処 理 を 実施 で き 
ます 。Linux の ファ イア ウォ ー ル 機 
能 や 、 ア ドレ ス 変 換 機能 (NAT や 
NAPT) は netiilter 機 構 で 実現 され 
て いま す 

netfilter は パケ ッ ト に 適用 すべ き 
ルー ル を リス ト か ら 線 形 探査 し ま 
す 。 ルー ル は 設定 され た 順に 並べ ら 


通常 の netfilter 設定 の 場合 


IP アド レス や MAC ア ドレ ス 、 ボ ポー ト 番 号 ご と に 
ルー ル が 作ら れる た め 、 ル ー ル 数 が 多く な りや すい 


@IP range マッ チ を 使用 し た 場合 
ーーーーーーーーーー ゆ - 


page3 


連続 し た IP アド レス 範囲 ご と に 
ルー ル を 設定 で きる 。 条 件 が 合 
えば ルー ル 数 を 減ら せる が 、 う ま 
くま と め ら れ な い ケ ー ス も ある 


れ て いて 最適 化 S も され て いな いた 
め 、 リ スト を 頭 か ら ー つ ー つ 調べ る 
必要 が あり ます 。 設定 する ルー ル 数 
が 増え る と 、 そ れ に 比例 し て 処理 
時 間 が か か る よう に な り ま す ( 図 1 
⑥) 

特別 な 機能 を 利用 し な い 場 合 、ne 
tflter で は 、 ネ ットワーク アド レス 
や IP アド レス 、 MAC ア ドレ ス 、 ポ 


に パケ ッ ト 処 理 ル ー ル 
あり ます か ら 、 ル 
* ち で す 。 例 えば 、 特 
定 の 国々 か ら の アク セス を すべ て 


ト を 線形 探査 し て 
を 探す の で ルー ル 数 
比例 し て 処理 時 間 が 増加 する 


処理 時 間 大 メモ リー 使用 量 大 


IP set を 使用 し た 場合 
ーー 一 季 - 


ルー ル 


荘 記 | 


任意 の IP アド レス 群 、MAC ア ドレ ス 群 、 
ボー ト 番 号 群 を グル ー プ 化し 、 そ れ に 対し 
て ルー ル を 設定 で きる 。 デ ー タ の 性 質 に 
合わ せ て 記録 形式 も 選択 可能 


処理 時 間 小 


メモ リー 使用 量 小 


図 1 ルー ル 数 を 削減 し て パケ ッ ト 処 理 を 高速 化す る [IP setl 


netfiter で は [IP アド レス 」 や [MAC ア ドレス]、「 ポ ー ト 番号 ] と いっ 
処理 ルー ル を 設定 する 必要 が ある 。IP set を 利用 する と 、 タ ー 
ルー プ に 対し て パケ ッ ト 処 理 ルー ル を 設定 で きる 。 通 用 する 】 


で きる 。 


た ター ゲッ ト 特 定 用 情報 ご と に パケ ッ ト 
特定 用 情報 を グル ー プ 化し て 、 そ の グ 
の 数 が 減る こと で 処理 の 高速 化 が 期待 


禁止 し よう と 思っ た 場合 は 、 ル ー ル 
数 が 数 万 に も 及ぶ こと が あり ます 。 
こう な る と 、 ル ー ル 探査 処理 の 負荷 
が 高く な り 、 通 信 速 度 が 大 幅 に 低 
し て し まい ます 。 ま た 、 ル ー ル 格 
納 用 の デー タ 領 域 が 増え ます か ら 、 
カー ネル の メモ リー 使用 量 も 増加 
し ます 

netiilter の [IP range マ ッ チ | と 
いう 機能 を 利用 すれ ば 、 連 続 する IP 
アド レス 群 を グル ー プ 化し て 、 そ の 
グル ー プ 一 の ルー ル を 適用 で 
きま す ( 図 1@)。 条件 が 
ー ル 数 を 大 幅 に 減ら すこ と が で き 、 
性 能 低下 や メモ リー 使用 量 の 無駄 
を 押え る こと が で きま す が 、 実 際 に 
は 「 連 続 し た IP アド レス 群 」 だ け 
を ター ゲッ ト に する ケー ス は 少な 
く 、 一 般 的 に は あま り 効 果 を 期待 で 
きま せん 


柔軟 に グル ー プ を 作成 で きる 

この 問題 を 解決 する た め 、 い くつ 
か の netflter 拡 張 が 開発 きれ て きま 
し た 。 2004 年 発 さ れ た の が [IP 
set| と いう 拡張 機能 で す 

IP set で は 、 任 意 の IP アド レス 群 
や ネッ トワ ー ク アド レス 群 、MAC 
テア ドレ ス 群 、 ポ ー ト 番号 群 、 そ し 
て それ ら を 組み 合わ せ た も の を グ 


*1 netfilter で は 通信 処理 の 特定 部 分 に 
「 チ ェ イン 」 と 呼ば れる 関所 を 設け 、 チ ェ イ ン 
ご と に ルー ル を 設定 で きま す 。 


IPv4 アド レス (ネッ トワ ー ク アド レス 含む ) 

IPv4 ア ドレ ス と (ソー ス ) MAC ア ドレ ス の 組 

TCP/UDP ポ ー ト 番号 

IPv4/IPv6 アド レス (ネッ トワ ー ク アド レス 含む ) 

IPv4/IPv6 ア ドレ ス 、 プ ロト コル / ポ ー ト 、IPv4/IPV6 ア ドレ ス の 3 つの 組 


hashiipjpotip 
hash:ip,portnet 
hashnet 
hashinetport 


list:set セッ ト 


ルー プ 化 で きま す 。 こ の グル ー プ を 
「 セ モット 」 と 呼び ます 。 各 セッ ト に 
は 名 前 を 付け る こと が で き 、 そ の セ 


ッ ト を 対象 に netiilter の ルー ル を 適 


用 可能 で す ( 図 1@)。 グ ルー プ 化 
の 柔軟 性 が 高い た め 、 う まく 活用 す 
れ ば 多く の ケー ス で ルー ル 数 を 大 
幅 に 削減 で きま す 

IP set で セッ ト を 作成 する 際 は 、 
メン バー 情報 を 格納 する デー タ 領 
域 を 用 意 し な けれ ば な り ま せん 。 格 
納 す る デー タ の 種類 に 応 
ト タ イ プ ] と 呼ば れる 格納 形式 を 選 
択 す る 必要 が あり ます ( 表 1)。 ビ 
ッ ト マ ッ プ 形式 と ハッ シュ 形式 の 
お も に 2 種類 の モッ ト タ イ プ が 人 存在 
し ます *2 

ビッ トマ ッ プ 形式 の セッ ト に は 
特定 の 範囲 内 の デー タ し か 格納 で 
きま せん が 、 シ ンプ ブル な 仕組 み の た 
め 管 理 が 容易 で す 。 一 方 ハッ シュ 
形式 の セッ ト に は 任意 の デー タ を 
格納 で き て 柔軟 性 が 高い の で す が 、 
処理 を 最適 化す る に は ハッ シュ サ 
ィ ズ を 適切 に 設定 する 必要 が ある 


IPv4/IPvV6 ア ドレ ス 、 プ ロト コル / ボ ー ト 、 
IPv4/IPV6 ネ ットワーク アド レス 
IPv4/IPv6 ネ ットワーク 、 プ ロト コル / ポ ー ト の 組 


な ど 、 管 理 が や や 面倒 で す 
も 選べ る 場合 は 、 ビ ッ ト マ ッ プ 形式 
を 利用 し た 方 が よい で し ょ う 
な お 、IP set に よる グル ー プ 作成 
や 管理 に は 「ipsetl と いう コマ ン 
ド を 利用 し ます 
2005 年 に 実施 され た カー ネル 


どちら 


テア ド レス 数 が 1000 を 超え る と 処理 
性 能 が 急激 に 低下 し 始め る の に 対 
し 、IP set 使 用 時 に は IP アド レス 
数 の 増加 が ほとん ど 人 性 能 に 影響 し 
な いと いう 結果 が 出 て いま す *3, 


IPv6 対 応 な どの 実現 で マー ジ 
この よう に 効果 的 な IP set で す 
が 、 な か な か カー ネル に は マー ジ き さき 
れ ま せん で し た 。 カ ー ネ ル 空間 と 
ユー ザー 空間 の 通信 方 式 ヤ イン タ 
フェ ー ス を どう する か に つい て の 
SC まとまら な か っ た 
こと と 、IPv6 に 6 だ だら だ 記 ち 
ょ ど が 主 な 理由 で 2010 年 に 入 
っ て て これ ちの 病 是 を 糞 靖 する た め 


IPv4/IPV6 ネッ トワ ー ク アド レス の 3 つの 組 


に 「ipset nextl と いう 新しい 実装 
の 開発 が 始ま り ま し た 。 この 新 実装 
で は IPv6 が サポ ー ト され まし た し 、 
イン タフ ェ ー ス も 整理 され て 「 バ パー 
ジョ ン 1| の API が 新た に 用 意 き され 
まし た 。 従来 の 「 バ ー ジ ョ ン 0」 の 
API も 互換 性 維持 の た め に 残さ れ 
て いま す 

この 新 実装 の 開発 が 進み 、2011 年 


5 月 19 昌 に リリ ー ス され た カー ネル 


IP set ほ は 「CONFIG_IP_SET 
う カ ー ネ ル 変数 に 「Y]」 か 「M] を 
設定 し て カー ネル を ビル ド す る と 
利用 で きま す 

な お 、 ビ ルド 用 の カー ネル 変数 は 
個々 の モッ ト タ イ プ に も 用 意 さ れ 
て いま す 。 使わ な いも の に つい て は 
無効 化 が 可能 で す 


*2 複数 の セッ ト の 管理 に 使う [listtset」] と 
いう セッ ト タ イプ は 、 リ スト 形式 で デー タ を 管理 
し ます 。 

*3 ペン チマ ー ク で は 最大 1 万 6384 個 の 
IP アド レス を 設定 し て いま す 。 こ の ベン チマ ー 
ク に つい て は 「http://people netfilter_org/ 
kadlec/nftestpdf」 を 参照 。 


helper アプ リ の 特権 制限 機構 


安全 に シス テム を 動か す 仕 組み 


特権 を 制限 し て シス テム を 安全 に 動か す 仕 組み で す 。 カー ネル が ユー ザー 空間 で 起動 する アプ リケーション の 動作 権限 
を 制限 し ます 。 権限 昇格 に つなが る 「 穴 ] を ふさ げ ま す 。 


カー ネル か ら ユ ー ザ ー 空 間 の ア 
プリ ケー ショ ン を 呼び 出す 処理 を 、 

- 般 に 「upcalll と 呼び ます 。Lin 
ux で は 「usermodehelper] と いう 
API を 使っ て upcall 処 理 を 実現 し て 
いま す 。usermodehelper API に よ 
っ て 呼び 出 き れる アプ リ ケ ー シ ョ 
ン (helper ア ブ プリ) に は 、 例 えば 、 
モジ ュー ル 操 作用 の 「modprobe」 
コマ ンド な ど が あり ます 。modpro 
be コマ ンド は 、 特 定 の モジ ュー ル 
に よっ て 提供 きれ る デバ イス ファ 
イル に アク セス が あっ た 場合 な ど 
に カー ネル に よっ て 呼び 出さ きれ 、 必 
要 な モジ ュー ル を 組み 込む 働き 
し ます 


er 


全 特権 が 付与 され て いた 

この usermodehelper API に ( 
題 が あり まし た 。 呼び 出す helpe 
プリ に 特権 (POSIX Capability*) 


を すべ て 割り 当て て し まっ て お り 、 


これ を 悪用 すれ ば 、 ユ ー ザ ー が 許可 
きれ て いな い 操 作 を 実現 で きる ケ 
ー ス が あっ た の で す 
代表 的 な 例 が 、 ネ ットワーク 管理 
用 の 「ifconfig]l コマ ンド 上 で 
す ( 図 1)。 iconig コマ ンド に よる 
ネッ トワ ー ク 管理 操 要 な 特 
権 は で す 
方 、 ー ル の 組み 込み に 必要 
な 特権 は 「CAP_SYS_MODULE」 
で す 
この 2 つの 特権 は 独立 し て いる 
の で 、 両 方 の 操作 を 可能 に する に 
は 2 つの 特権 を 持っ て いな けれ ば 
な り ま せん 。 し か し 従来 は 、 CAP_ 
NET_ADMIN 特 権 し か 持た な い 状 
却 で あっ て も 、 次 の よう に ifconfig 
コマ ンド を 実行 する こと で 、 任 意 の 
ジュ ー ル を 組み 込む こと が 可能 
で じ た 


$ ifconfig モジ ュー ル 名 ロロ 


Fedora 環境 で 実 ジュ ー ル 
を 組み 込め る 様子 を 図 2 に 挙げ まし 
た 。modprobe コ マン ド を 直接 実 
行 し て も ー ル を 組み 込め な 
い 一 般 ユ ー ザ ー で あっ て も 、CAP_ 
NET_ADMIN 特 権 を 与え た ifconf 
jig コマ ンド を 使う と モジ ュー ル を 組 
み 込 め る こと が 分 か り ま す 

ifconfig コマ ンド で 任意 の モジ ュ 
ー ル を 組み 込め る 理由 は 次 の 通り 


まず 第 一 に 、ifconfig コマ ンド で 
存在 し な い デ パイ ス に 対す る 操作 
を 実行 する と 、 カ ー ネ ル の ネッ トワ 
ー ク コア ドラ イ バ が helper ア プリ 
と し て modprobe コ マン ド を 呼び 出 
し て 必要 な モジ ュー ル を 組み 込む 
仕組 み に な っ て いる か ら で す 。 さら 


【PosIX Capability】 管理 者 (roo\) が 持 
つ 特 権 を 用 途 別に 分 割 し 、 必 要 最小 限 の 権 
限 だ け を 割り 当て られ る よう に する 仕組 み 、 あ 
る い は 分 割 し た 特権 の こと 。 


ifconfg コ マン ド に よる 操作 に 必要 
な 特権 は CAP_NET_ADMIN 


図 1 helper ア プリ に 全 特 権 が 付与 され る こ 
と で 生じ る 問題 

従来 、usermodehelper API を 通じ て 呼び 出す helper 
アプ リ に は すべ て の 特権 が 付与 され て いた 。 こ れ を 悪 
用 する こと で 、 ユ ー ザ ー が 許可 され な い 操 作 を 実現 で 
きる ケー ス が ある 。 代表 的 な 例 が 、 ネ ットワーク 管理 
ド を 悪用 し て 任意 の モジ ュー ル を 


joc10 
シス テム コー ル 


モジ ュー ル 管 理 に 必要 な CAP_SYS_MODULE 
特権 も 自動 的 に 付与 され る 


カー ネル は 全 特 権 を 付与 
し て helper ア プリ を 実行 


Linux カ ー ネ ル 


smod | grep Crc7 回 
$ getcap ./1fconfig-copy 器 


crc7: error fetch1ng fnterface fnformat1on: Device not found 


* 1smod | grep crc7 ロ 
crc7 977 0 


modprobe コ マン ド で は 
モジ ュー ル を 組み 込め な い 


ifconfig コ マン ド 
ル が 組み 込め た 


図 2 Fedora で の 不正 な モジ ュー ル 組 み 込 み 例 
2.6.35 系 列 の カー ネル を 探 用 する Fedora 14 の 環境 で 実験 し た 様子 。modprobe コ マン ド を 直接 実行 し て も ドラ イ バ を 組み 込め な い 一 般 ユ ー ザ ー で あっ て も 、CAP 
NET_ADMIN 特 権 を 与え た ifconfig コ マン ド を 使う と モジ ュー ル を 読み 込め る こと が 分 か る 。 


に 、 呼 び 出 きれ た modprobe コマ ン 
ド に 全 特 権 が 付与 きれ て いる こと 

、CAP_SYS_MODULE 特 権 が 必 
要 な ー ル の 組み 込み が 可能 
に な っ て し まっ て いま し た 


ifconfig 問 題 は 対策 済み 

ifconiig コ マン ド に よっ て 任意 の 
モジ ュー ル を 組み 込め る 間 題 に 関 
し て は 、 カ ー ネ ル 2.6.38 で 個別 の 
対策 が 放 じ られ て いま す *1。 ネ ッ 
トワ ー ク コア ドライバ 内 で 、CAP_ 
NET_ADMIN 特 権 を 持つ 場合 は 、 
ネッ トワ ー ク 関連 モジ ュー ル だ け 
を 組み 込め る よう に 制限 を 加え た 
の で す 。 CAP_SYS_MODULE 特 権 
を 持つ 場合 は 、 従 来 通り 任意 の モジ 
ュー ル を 組み 込め ます 

し か し これ は あく まで も 「 入 り 
口 」 で の 対処 に 過ぎ ませ ん 。 userm 
odehelper API を 通じ て 呼び 出し た 
helper ア プリ に 全 特 権 が 付与 され 
る こと に 変わ り は な く 、 他 の 経路 で 


同様 の 問題 が 生じ る 恐れ は 依然 と 
し て 残っ て いま す 

な お 、 あ る 時 点 以 降 の モジ ュー 
ル 操作 を シス テム 全体 で 禁止 する 
だ け で あれ ば 、「/proc/sys/kernel/ 
modules_disabled] ファ イル に 1 
を 書き 込む こと で 実現 で きま す 
の 方 法 で 一 度 モ ジュ ー ル 操作 を 禁 
止 する と 、 管 理 者 で あっ て も シス テ 
ム を 再起 動 する 以外 に は 元 に 戻せ 
な く な り ま す の で 注意 が 必要 で す 


カー ネル 3.0 で 制限 可能 に 
2011 年 7 月 21 日 に リリ ー ス され 
た カー ネル 30 に は 、helper ア プリ 
に 付与 する 特権 を 制限 する 仕組 み 
が 盛り 込ま れ ま し た 。 具体 的 に は 、 
helper ア プリ に 割り 当て 可能 な 特 
権 群 を 「/proc/sys/kernel/user 
modehelper/bsetl ファ イル に 、hel 
per ア プリ が 子 プ ロモ ス に 継承 可能 
な 特権 群 を 「/proc/sys/kernel/us 
ermodehelper/inheritable」 ファ イ 


ル に 設定 し て お き 、 そ れ に 基づい て 
helper ア ブリ に 付与 する 特権 を 決 
定 す る 仕組 み で す 。 初期 設定 で は 従 
来 通り 、 全 特権 が 付与 きれ ます 

この 仕組 み を うま く 活 用 すれ ば 、 
helper ア プリ を 悪用 し た 危険 な 操 
作 を 一 律 に 禁止 で きま す 。 例 えば 、 
入出 力 ポ ー ト の 設定 を 変更 可能 に 
する CAP_SYS_RAWIO 特 権 を 落 
と せ ば 、 シ ステ ム 情 報 を 盗み 見 られ 
た り 、 シ ステ ム を 改 ぎ ん きれ る 危険 
を 減ら せま す 

な お 、 こ れ ら の 設定 ファ イル の 
変更 に は CAP_SETPCAP 特 権 と 
CAP_SYS_MODULE 特 権 の 双方 
が 必要 で す 。 ま た 、 フ ァイル に 設定 
し た 特権 群 は 、 シ ステ ム を 再起 動 し 
な い 限 り 「 権 限 を 落と す ] 方 向 で の 
設定 変更 し か で きま せん 


* キ 1 カー ネル 2..37 系 列 で は 、 カ ー ネ ル 
26.37.4 に 同 問題 に 対す る バッ チ が マー ジ 
され て いま す 。 


md の 不 論 ブロ ッ ク リ スト 対応 
不良 箇所 だ け 避 け て 冗長 性 を 維持 


ディ スク の 不良 ブロ ッ ク 情 報 を HAID 管 理 領 域 に 記録 し て お き 、 不良 セク ター の 使用 を 避け る 仕組 み で す 。 入出 力 エラ 
一 発生 時 に ディ スク 全体 を 無効 化 せ ず に 済み 、 冗 長 性 を 維持 で きま す 。 


md (multiple devices) サ プ シ 
ステ ム は 、 複 数 の プロ ッ ク デ バイス 
を きま ざま に 組み 合わ せ 、 仮 想 的 な 
物理 ポ ボリューム を 提供 する た め の 
カー ネル 機構 で す 。 一 般 に ソフ トウ 
エア RAID を 実現 する 用 途 に 使わ れ 
ます 

従来 、RAID ア レイ を 構成 する デ 
ィ ス ク に 入出 力 エ ラー が 生じ た 場 
合 に は 、md サ プシ ステ ム は 、 そ の 
ディ スク に 夏 障 を 示す フラ グ (faul 
ty フラグ) を 付け て RAID ア レイ か 
ら 切り 離し て いま し た *1。 こ れ は 
正常 な 入出 力 を 保証 する と いう 意 


従来 の 処理 
RAID アレ イ 


ディ スク の 一 部 の 領域 で 
入出 カエ ラー が 発生 


味 で は 好ま し い 動作 

- 方 で デー タ の 保護 や シス テム 管 
理 の 面 か ら は や や 困っ た 動作 で も 
あり まし た 

と いう の も 、 入 出力 エラ ー が 生じ 
る の が ディ スク の ご く 一 部 の 領域 
で あっ た と し て も ディ スク 全体 が 
切り 離さ れ て し まい 、 新 し い デ ィ ス 
ク を 用 意 し て RAID ア レイ を 復旧 き 
せる まで デー タ の 冗長 性 が 低い 、 あ 
る い は 冗長 性 が 完全 に 失わ れる か 
ら で す ( 図 1 上 )。 デ ィ ス タク 交換 と な 


る と 入れ 替え の 手間 や 再 構築 の 時 
間 が か か り ま すし 、 冗 長 性 が 低い 状 


デー タ 消 失 の 
危険 が 生じ る 
ほか 、 復 旧 な ど 
の 管理 作業 に 
手間 が か か る 


不良 ブロ ッ ク リス ト を 使っ た 処理 
RAID ア レイ 


間 ーーー ィ 
ディ スク の 一 部 の 領域 で 
入出 力 エラ ー が 発生 


md サブ シス テム は エラ 
ー が 発生 し た セク ター を 
不良 ブロ ッ ク リス ト に 登録 


不良 ブロ ッ ク リ ス 
ト に 登録 され た セ 
クタ ー は 入出 力 
の 対象 外 と な る 


RAID ア レイ の 構成 が 
維持 され る た め 、 安 全 
で 手間 も か か ら な い 


図 1 不良 ブロ ッ ク リス ト 対 応 で ディ スク 全体 を 切り 麻 さ な く て も すむ 
従来 は 、 入 出 カ エラ ー が 生じ る の が ディ スク の ご く 一 部 の 領域 で あっ た と し て も ディ スク 全体 が 切り 施さ れ 


て し まい 、 デー タ の 安全 性 低下 や 管理 負荷 向上 を 招い て いま し た 。 


衣 ブ ロッ クリ スト 対応 に よっ て 不良 蘭 


所 だ け を 処理 対象 か ら 外 せる よう に な り 、 こ うし た 問題 の 発生 を 抑え られ ます 。 


、 別 の ディ スク に 入出 力 
6 生 する と 、 最 悪 の 場合 デ 
ー タ を すべ て 失う 羽目 に な り ま す 


エラ ー ガ が 


不良 セク ター を 管理 領域 に 記録 

この 問題 は 、 不 良 箇 所 の 有無 
ディ スク 単位 に 管理 する こと で 生 
じ ま す 。 も っ と 小 き な 単 位 で 不良 筒 
所 を 管理 で きれ ば 、 デ ィ ス ク 全 体 を 
RAID ア レイ か ら 切 り 区 し て デー タ 
の 冗長 性 を 不要 に 損なう ケー ス は 
る と 考え られ ます 
で md サ プ シ ステ ム に は 現 
在 、 不 良 科 所 を デー タ の 記録 単位 
で ある 「 セ クタ ー」 ご と に 管理 する 
仕組 み が 追加 され まし た 。 この 新 し 
い 仕組 み で は 、RAID ア レイ の 構成 
ディ スク の RAID 管 理 領域 (スー パ 
ー プ ロッ ク ) に 不良 プ ブロッ クリ スト 
を 用 意 し 、 入 出力 エラ ー 発 生 
時 に は その リス ト に 不良 が 発生 し 
た モタ クター の 位置 を 追加 し ます ( 図 
1 下 )。 md サ プ シ ステ ム は この 不良 
プロ ッ ク リ スト を 使っ て 、 デ ィ ス ク 
の 不良 モク ター へ の 入出 力 処 理 を 
回 避 し ます 

不良 プロ ッ ク リ スト 対応 に は 「 デ 
ィ ス ク の 故障 を 拡大 させない] とい 


を 


キ 1 ディ スク の 入出 力 エラ ー は 、 デ ィ ス ク が 
正常 な 場合 で も それ な り の 頻度 で 生じ る た 
め 、 単 発 の エラ ー で 即座 に 故障 フラ グ を 設定 
する の は 現実 的 で は あり ませ ん 。 そ の た め 、 
理 を 再 実行 し て 、 そ れ が 成功 し た 場合 に は 故 
障 フ ラグ の 設定 を 見 送る 「 猫 予 描 置 ] が 採ら 
れ て いま す 。 


章 知っ つぐ お きた 


い カ ー ネ ル の 技術 
' 


トー ーー を | 
不 和 箇所 の 先頭 セク ター 番号 | 不良 セク ター の 連 細 数 | 店 セク ター で ある こと を 


現在 の 実装 で は 、 不 良 ブロ ッ ク リ 
スト の 最大 サイ ズ は ペー ジ サ イズ 


を 超え られ な い 


図 2 不良 ブロ ッ ク リ スト に 記録 する 情報 


不良 ブロ ッ ク リ スト 


各 不良 セク ター に 対応 する エン トリ ー は 64 ビ ッ ト 長 の デー タ 。 最 初 の 54 ビ ッ ト に は 不良 簡 所 の 先頭 セク ター 番号 、 続 く 9 ビ ピッ ト に は 不良 セク ター の 連続 個数 を 記 


人 録 す る 。 


う 効 果 も 期待 で きま す 。 ディ スク の 
攻 障 具合 に よっ て は 、 不 良 セク タ 
ー に 対 【 み 書 き を 繰り 

と で 、 新 た な 不良 モク ター が 発生 す 
る 場合 が ある か ら で す 。 従来 は 不良 
箇所 に つい て の 情報 を 氷 続 的 に 保 
持 し て いま せん で し た か ら 、 こ うし 
た 危険 な 読み 書き が 繰り 返さ れる 
恐れ が あり まし た 。 入出 力 エラ ー 発 
生 時 に は リト ライ も 試み られ ます 
の で 一 層 危 険 で す 。 

md サ プ シ ステ ム の 不良 プロ ッ ク 
リス ト 対 応 は 、2011 年 10 月 に リリ 
ー ス し た カー ネル 3.1 か ら 始 まり ま 
し た 。 カ ー ネ ル 3.16 まで の 時 
は 、 不 良 プ ロッ クリ スト の 大 きき は 
4K バ イト と な っ て いま すま *?2。 不 良 
セク ター が 増え て 不良 プ ブロック リ 
スト に 新規 エン トリ ー を 追加 で き 
な い 状 態 に な る と 、 そ こ で 初め て デ 
ィ ス ク に faulty フラ グ が 付け られ 、 
RAID ア レイ か ら 切 り 離 され ます 。 


不良 プ ブロッ クリ スト に は 図 2 の よ 
うな 情報 が 記録 きれ ます 。 ディ スク 
の 不良 は 隣接 領域 に も 発生 する こ 
と が 多い た め 、 不 良 モ クタ ー を 個別 
に 管理 する の で は な く 、 連 続 する 不 
良 セ クタ ー を まとめ て 管理 する 方 
式 を 採用 し て いま す 。54 ビッ ト 長 
の デー タ で セク ター 番号 を 管理 し 
ます の で 、 セ クタ ー 長 が 512 パ イト 
の 場合 は 、 最 大 8BE (エクサ) バイ 
ト ま で の ディ スク に 対応 で きま す 


1. ぶ 系 の RAID 管 理 形式 で 対応 

md サ プ シ ステ ム の RAID スー パ 
ー プ ロック 形 式 に は 、 バ ー ジ ョ ン 
09 と パー ジョ ン 1x 系 列 の 主 に 2 種 
類 が 存在 し ます 。2011 年 8 月 時 』 
は 、 バ パー ジョ ン 09 形 式 の スー パー 
プロ ッ ク が 一 般 に 使わ れ ま す 

し か し 、 バ パー ジョ ン 09 形 式 の ス 
ー バ パー ブロッ ク に は 不良 ブロ ッ ク 
リス ト を 追加 する 余地 が な く 、 不 


良 プ ロッ クリ スト 対応 は バー ジョ 
ン lx 系列 の み と な っ て いま す 。 そ 
の た め 、 不 良 プ ロッ クリ スト に よる 
管理 を 実現 する に は 、RAID ア レイ 
の 作成 時 に パー ジョ ン lx 系 列 の ス 
ー バ パー ブロッ ク を 使用 する よう に 
指定 し な けれ ば な り ま せん 。 2014 
年 9 月 時 点 の 最新 の スー パー プロ ッ 
ク 形 式 は パー ジョ ン 1.2 で す 。 こ れ 
を 使う 場合 は 、RAID 管 理 用 の md 
adm コ マン ド に 「 で 1.2] と いう オ 
プシ ョ ン を 指定 し ます 

また 、mdadm コマ ンド に つい て 
も 不良 プロ ッ ク リ スト 対応 の バー 
ジョ ン を 利用 し な けれ ば な り ま せ 
ん 。 不 診 プロ ッ ク リ スト の 管理 に 対 
応 す る の は 、mdadm コマ ンド の パ 
ー ジ ョ ン 33 以 降 で す 


*2 サイ ズ は 変更 可能 で す が 、 カ ー ネ ル 
3.16 ま で の 時 点 で は ペー ジ サ イズ を 超え られ 
な いよ うに な っ て いま す 。 


カー ネル ハッ カー が 教え る 


Linux メモリー 技術 


日 本 国内 に も カー ネル 開発 の コミ ュ ニ ティ ー に 参加 し て いる 人 が 数 多く いま す 。 
この コミ ュ ニ ティ ー に 参加 し て いる カー ネル ハッ カー が Linux の メモ リー 技術 を 詳し く 解説 し ます 。 
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付 録 


カー ネル ハッ カー が 教え る Linux メ モリ 技術 


筆者 は コミ ュ ニ ティ ー で メモ リー 
関連 の 機能 を 担当 し て いま す 。 一 洗 
の 機能 で は カー ネル の 共同 メン テ ナ 
ー を 務め て いま す 。 本 章 で は 、 読 者 
の 皆さん に 知っ て お いて ほし い Lin 
ux カー ネル 関連 の 技術 を 取り 上 げ 
ます 。 初 心 者 で も 分 か る よう に 、 か 
み 砕 いて 解説 し て いき ます 

さて 、Linux で は 動作 し て いる プ 
ログ ラム が どん な 状態 に な っ て いる 
の か を 「ps コマ ンド 」 で 把握 で きま 
す 。 そ の ps コマ ンド で は 、 メ モリ 
ー に 関す る 情報 が 2 つ 出 力 さ れ ま す 
- つ は 「VSZ」 で 、 これ は 仮想 メモ 
リー を 含む メモ リー サイ ズ の 概算 の 
も う 一 つ は 、 メ モリ ー の 
使用 サイ ズ を 表す 「RSS」 で す 。 実 
行 例 ( 図 1) を ご 覧 くだ さい 。 プ ブロ 
グラ ム ご と に 、VSZ と RSS の 値 が 示 
きれ て いま す 。 第 1 回 は 、 こ れ ら の 


値 の 意味 を 探っ て いき ます 


ペー ジ と デマ ンド ペー ジン グ 
現在 の OS で は 、 メ モリ ー を 「 ペ 
ー ジ 」 と 呼ぶ 単位 で 管理 し て いま す 
Linux で は 基本 的 に 4K パ イト の ペー 
ジ サ イズ を 使用 し ます 。 つ まり 、1ii 
nux は 4K バ イト 単位 で メモ リー ( ペ 
ー ジ ) を プロ セス に 割り 当て る と い 


仮想 メモ リー を 含む 
メモ リー サイ ズ の 概 
算 (K バ イト ) 


図 1 ps コマ ンド で 出力 され る メモ リー 関 
連 情 報 (Fedora 20 で の 実行 結果 ) 


ス が メモ リー を 要求 する と いう と 
(メモ リー を 確保 する ) malloc 関 数 
を 思い 浮か べ る か も しれ ま せん 。 ma 
lloc は 、 内 部 で 「mmap] や 「brk 
(mmap の 仲間 )| を 発行 し ます 

mmap は プロ モス が メモ リー を 扱う 
際 の 基本 シス テム コー ル で 、 メ モリ 
ー を 割り 当て た り 、HDD に ある フ 
Et ッ ピ ング じ た だ た 


プロ セス は 、 メ モリ ー が 必要 に 
る と OS に mmap を 発行 し 、 件 ア 
ドレ ス の 使い 方 (処理 方 法 ) を 指定 


し ます 。 そ れ を 受け 、OS は 新た な 仮 
想 ア ドレ ス 域 を プロ モス に 割り 当て 

ます ( 図 2)。 こ の よう に し て プロ セ 
ス に 割り KS と 仮想 ア ス 域 の 合 


(この 時 
を 割り 当 
at に よっ て 得 た 仮想 
ス 域 に 対し て 、 プ ロモ ス ( ユ 

ー ザ ー プ ログ ラム ) が アク セス する 
、 ま だ ペー ジ が 存在 し な い の で ペ 
ー ジ フォ ルト と いう 例外 (エラ ー の 
- 種 ) が 発生 し ます 。 す る と 、CPU 
の 機能 に より 制御 が OS に 移さ れ ま 
す 。OS は 、 ユ ー ザ ー プ ログ ラム の 


“は 、 ま 


ログ ラム と メモ リー の 関係 


アク セス 先 を 調べ て 、 yi 
て 得 た 仮想 アド レス 域 の 場合 に は 
ほど の mmap の 指定 に 沿っ て メ 0 
ー を 割り 当て る の で す 

こう し て プロ モス に 割り 当て られ 
た メモ リー の サイ ズ (合計 量 ) が 
RSS で あり 、 ペ ー ジ フォ ルト が 生じ 
る た びに ペー ジ サ イズ 分 (4K バ パイ 
ト ) ずつ 増え て いき ます 。 こ の よう 
に 、 最初 か ら メ モリ ー を 割り き 


の で は な く 、 実際 に メモ リー が 必 
に な っ た 際 に 動 的 に メモ リー 
人 を 「 デ マン ド ペ ー ジ ング 」 


と 呼び ま 

と 時 OS が アク モス 先 を 調 
こ 、mmap に よっ て 得 た 仮想 
ス 域 で は な い 領域 だ っ た 場合 
に は 、 ど うな る で し ょ うか ? その 場 
合 、「 セ グ メ ン テ ー シ ョ ン フ ォ ル ト 」 
と 呼ぶ 例外 が 発生 し 、OS は プロ モ 
ス に シグ ナル (SIGSEGV) を 送信 
し ます 。OS は mmap で 処理 方 法 を 
教え られ て いな い 領域 へ く の ア クセ ス 
に は 対応 で きず 、 どう する の か を ユ 
ー ザ ー プ ログ ラム に 決め て も ら お う 
と いう わけ で す (大 抵 は 、 プ ログ ラ 
ム が 終了 し ます ) 


@mmap で 得 た アド レス 域 仮想 メモ リー 


@mmap で 得 た 
アド レス 域 以外 
へ の アク セス 


mmap に よっ て 、 
利用 範囲 を 宣言 


図 2 OS が プロ セス に メモ リー を 割り 当て る 流れ 


プロ セス が mmap シ ステ ムコ ー ル を 発行 し て 仮想 アド レス の 使用 範囲 を 宣言 する と 、OS は プロ セス に 対し て 
新た な アド レス 域 を 割り 当て る 。 こ の 段階 で は 、 ま だ ペー ジ ( メ モリ ー) を 割り 当て な い 。 プロ セス (ユー ザー 
プロ グラ ム ) が 実際 に その アド レス 域 に アク セス し た 際 、 ペー ジフ ォ ル ト が 発生 する 。 それ に より 、 制 例 が OS 
、 プ ロ セ ス に メモ リー を 割り 当て る 。 な お 、 mmap で 得 た アド レス 域 以 外 に アク セス し た 場合 は 、 セ 
グ メ ン テ ーション フォ ルト が 発生 する 。 


メモ リー に は file map と anon が ある 

ここ か ら は 、 少し ば か り 深 い 内 容 
を 見 て いき ます 

VSZ お よび RSS に 含ま れる メモ 
リー は 、「file map 域 | と 「anonymo 
us 域 | に 大 別 で きま す 。 品 e map 域 
は ファ イル の 内 容 を メモ リー に 張り 
付け た 領域 、 ま た anonymous 域 は 
ファ イル と は 無関係 の 領域 の こと で 
す 。 そ れ ぞ れ の 使い どこ ろ で す が 、i 
le map 域 は プロ グラ ム や 共有 ライ プ ブ 
ラリ 、 デ ー タ ファ イル な ど を メモ リ 
ー 貼 り 付 ける 際 に 使用 し 、 anonymo 
us 域 は ヒー プ (malloc で 得 ら れる メ 
モリ ー) や スタ ッ ク に 使い ます 

最近 の カー ネル で は 「numa_ma 
DS」 と いう 機能 が 追加 され て 、 プ ロ 
セス の メモ リー マッ プ 状 態 を 詳し く 
確認 で きる よう に な っ て いま す 。 図 
3 は 、 その 機能 を 用 いて 「cal] コマ 
ンド (ファ イル の 中 身 を 表示 ) の プ 
ログ ラム 自身 ひめ メモ リー マッ プ を 表 
示さ きせ た 画 面 で す 

「file=」 の 後に ファ イル 名 が ある 
アド レス 域 は file map 域 、 名 前 が な 
いと ころ は anonymous 域 で す 。「ma 
pped=| や 「anon=| の 数 値 は 、 ペ 
ー ジ フォ ルト の 発生 に より マッ プ き 
れ た ペー ジ 数 (メモ リー 量 ) を 表し 
ます 。 


共有 デー タ を 独自 に 改変 する 

「0060a000 default iile=…| の よ 
うに 、 品 e map な の に anon が カウ ン 
ト き れ て いる 箇所 が あり ます 。 こ れ 
は 、 フ ァイル の 中 身 を anonymous 
域 に コピ ー し て か ら 、 マ ッ ピ ング し 
て いる こと を 表し ます 。 な ぜ そ ん な 
面倒 な た こと を する の で し ょ うか 。 も 
ちろ ん 、 理 由 が あり ます 。 


s 

00400000 default file=/usr/bin/cat mapped=6 NO=6 
0060a000 default f1le=/usr/b1n/cat annon=1 dirty=] NO=1 

0060a000 default f1le=/usr/bjn/cat annon=1 dirty=] NO=] mapped=2 NO=2 


3e98600000 defau1t f11e=/usr/11b64/1d-2.16.so mapp 昌 =27 mapmax=27 NO=27 
3e98820000 defau1t f1le=/usr/11b64/1d-2.16.so annonA\ dirty=1 NO=1 
3e98821000 default file=/usr/11b64/1d-2.16.so annon=\ Mirty=1 NO-1 


3e98822000 defau1t anon=1 dirty=1 NO=1: 


「file=] の 後ろ に ファ イル 名 が 
ある の は 「file map 域 ] 


ファ イル 名 が な い の は 「anonym 
ous 域 ] 


図 3 numa_maps 機能 を 使っ て プロ セス の メモ リー マッ プ 状 態 を 確認 

Fedora 20 で の 実行 結果 。「mapped=」「anon=] で 示さ れる 数 値 は 、 ペ ー ジ フォ ルト の 発生 に より マッ プ さ れ 
た ペー ジ 数 (メモ リー 量 ) を 表す 。 また [mapmax=」 の 値 は 領域 中 の ペー ジ の うち 、 プ ロ セ ス 間 で 最も 多く 共有 
され て いる ペー ジ の 共有 度 で あ る 。「dirty=」 の 値 は 書き 込み 内 容 が HDD や スワ ッ プ に 反映 され て いな い ペ ー 
ジ 数 、「NO=x] と いう 表記 は NUMA ノ ー ド の 0 番 か ら ペ ー ジ を x 個 獲得 し た こと を 意味 する 。 


人 読み 出し の み の 場合 


HDD 


プロ セス A の 
仮想 アド レス 域 


flle map 域 


プロ セス B の 
仮想 アド レス 域 


図 4 Copy On Write の 動作 


プロ セス B で プラ イベ ー ト の 書き 込み が 
発生 し た 場合 
HDD 


プロ セス A の 
仮想 アド レス 城 


flle map 域 


anonymous 城 
に 


プロ セス B の 
仮想 アド レス 域 


( 左 ) ファ イル の 中 身 を 読み 出す だ け な ら 、 フ ァイル を メモ リー に マッ ピン グ し 、 そ の 内 容 を 読め ば いい 。( 右 ) 
プラ イベ ー ト の 書き 込み を 行う と 場合 は 、 そ の まま 書き 込む と ファ イル を 変更 し て し まう の で 、 い っ た ん an 


onymous 域 に コピ ー し 、 コ ピー 先 に 変更 を 加え る 。 


例え ば 、 実 行 フ ァイル の 「aoutl 中 
に 静 的 に 定義 され て いる 変数 が ある 
と し ます 。 フ ァイル の 中 身 を 読み 出 
す だ け な ら 、 フ ァイル を メモ リー に 
マッ ピン グ し 、 その 内 容 を 読め ば い 
いわ け で す 。 

し か し 、 プ ライ ベー ト の 書き 込 
み を 行う 場合 は 、、 そ の まま 書き 込 
むと ファ イル を 変更 し て し まう の 
で 、 い っ た ん anonymous に コピ 
ー レ し 、 コビー 先 に 変更 を 加え る の で 
す ( 図 4)。 

この 動作 を 「Copy On Writel と 
呼び mmap 発 行 時 に 「MAP_PRIV 
ATE」 を 指定 する と 利用 で きま す 。 要 


する に 、Copy On Write は 複数 の プ 
ロモ セス で デー タ を 共有 し つつ 、 各 プロ 
モス が 独自 に 改変 で きる よう に する 
仕組 みな の で す 

最後 は や や 駆け 中 に な っ て し まい 
まし た が 、mmap の 動作 を 理解 し て 
いた だ け ま し た か 。 言い 忘れ て いた 
こと が あり ます 。 ps など が 出力 す 
る RSS は 、 高 速 化 の た め に 精度 を 
犠牲 に し て いま す 。 そ の た め 、 正 
確 な 情報 を 取り 出す numa_maps の 
値 と 比較 し て も 、 一 致し な いこ と は 
珍し く あ り ま せん 。 ま た 、numa_ 
maps は 低速 で す 。 用途 に 応じ て 使 
い 分 け て くだ さい 。 


付 録 

筆者 は 普段 の 仕事 で Linux に 関 
する 質問 、 特 に メモ リー 関連 の 質 

を 受け る こと が よく あり ます 。 そ 
き は 、 ま ず 質 問 者 と の 間 
メモ リー|「 メ モリ ー 不 
足 」 と いっ た 用 語 の 定義 を は っ きり 
させ て 、 共通 の 認識 を 持つ よう に 心 
が け て いま す 。 そ うし な いと 、 質 問 
の 意味 を 取り 違え た り 、 返 答 し た 内 
容 が 相手 に 正しく 伝わら な か っ た り 


答 の キャ ッ チ ボー ル 
と 続く こと に な っ て し ま 


- 口 に 「 空 き メ モリ ー」 と いっ て 
も 、 それ は 「 プ ログ ラム か ら 使 われ 
て いな い メ モリ ー| の こと か も し れ 
ませ ん 。 あ る い は 「 シ ステ ム の キャ 
パシ ティ ー プ ラン ニン グ (容量 の 計 
画 ) に お いて 余裕 を 持た せる た め に 
搭載 し た メモ リー」 の こと な の か も 
し れ ま せん 。 後者 の 場合 、「 余 裕 ] 
と は どの よう な 意味 な の か も 、 は っ 
きり させ る 必要 が あり そう で す 
No.1 で は 、VSZ お よび RSS に 含ま 


メモ リー 要求 


リト ライ 


kswapd を 起動 後 、 一 段 ゆ る い 基 準 で 
未 使用 メモ リー が 十分 か 否 か を 判断 


れる メモ リー に は 「file map 域 」 と 
「anonymous 域 | が あり 、file map 
域 は ファ イル の 内 容 を メモ リー に 張 
5 り 付け た 領域 、anonymous 域 は フ 
ァイル と は 無関係 の 領域 の こと と い 
っ た 説明 を し まし た 

また 、file map 域 に プラ イベ ー ト 
の 書き 込み を 行う 場合 は 、 そ の まま 
書き 込む と ファ イル を 変更 し て し ま 
う の で 、 い っ た ん anonymous 域 に 
コピ ー じ で その ロ ピ ニー 先 に 対 じ で 
変更 を 加え る 仕組 みな ど に つい て も 
触れ まし た 

ここ で は 、「Linux カー ネル に お け 
る メモ リー 管理 機構 」 (こう 書く と 
長く な る の で 、 以 降 は MM と 記し ま 
す ) が 持つ 、 空き メモ リー を 作り 出 
す 仕 組み に つい て 紹介 する 
ます 


メモ リー を 回 収 し て 割り 当て る 
アプ リケーション や カー ネル は メ 

モリ ー が 必要 に な る と 、 メ モリ ー の 

割り 当て を MM に 要求 し ます 。 未 合 


図 1 メモ リー の 割り 当て と kswapd、direct reclaim の 関係 


カー ネル ハッ カー が 教え る Linux メモ リー 技術 


き メ モリ ー と メモ リー 不足 


用 の メモ リー が 十分 に あれ ば 、 MM 
は そこ か ら メ モリ ー を 割り 当て ま 
す 。 で は 、 不 十分 な 場合 は 
の で し ょ うか 。「 我 慢 し て く 


と む げ に 断る こと は せ ず 、 使用 中 の 
メモ リー を 回 収 し て 割り 当て よう と 
する の で す 

メモ リー の 回 収 と は 、 使用 中 の メ 
モリ ー ペ ー ジ を 一 つ ひ と つつ 調べ て 、 
可能 な 場合 に は それ を 未 使用 の 状 
態 


す 処 理 の こと で す 。 専門 用 語 
で は 、 こ れ を 「reclaim (回 収 ) 処 
理 ] と いい ます 

MM は 、2 種 類 の reclaim 処 理 を 
行い ます 

- つ は 、「background reclaim」 

で あり 、 文字 通り “裏側 * の 処理 で 
す 。kswapd と いう カー ネル デー モ 
ン が 、 こ の 処理 を 実行 し ます 。ksw 
apd は 「Low」 ( 低 ) [High」 ( 高 ) 
と いう 2 つの し きい 値 を 持っ て いて 、 
未 使用 メモ リー の 量 が Low を 下 回 
る と 起動 し 、 High を 上 回 る まで rec 
laim 処理 を 続け る の で す 

も う 一 つ は 、 メ モリ ー の 割り 当て 
要求 の 発行 元 に 、 モ エル フサ ービス で 
メモ リー 回 収 を 行う よう に 指示 する 
「direct reclaim] 処理 で す 。direct 
reclaim 処理 で は 、 メ ヌメ モリー の 割り 
当て 要求 出し た スレ ッ ド が その ま 
ま 、reclaim 処 理 を 実施 し て メモ リ 
ー を 回 収 し 、 割 り 当 て を 試み ます 

割り 当て 要求 の 発行 元 に と っ て di 
rect reclaim 処 理 は 面倒 な の で 、 中 
rect reclaim 処 理 に は 存在 価値 が な 
きそう だ と 思わ れ た 方 が いる も し れ 
ませ ん 。 し か し 、 存 在 価値 は 大 あり 
で す 。background reclaim が 裏 で メ 
モリ ー を 回 収 し て くれ て いる と は い 
え 、 要求 が 多い と 裏側 の 処理 だ け で 


は 追い つき ませ ん 。 急ぐ 場合 に は 、 
必要 な メモ リー を 自分 で 回 収 し た 方 
が 迅速 な の で す ( 図 1)。 


ペー ジ に 応じ た や りか た で 回 収 
さて 、 回 収 と いう の は どの よう な 

処理 な の で し ょ うか 。 先 ほど 、 メ 

モリ ー 回 収 は 使用 中 の メモ リー を 、 


可能 な ら 未 使用 の 状態 に 戻す 処理 
記し ま 【 で は 、 可能 
か 人 否 か の 判断 は だ れ が どう くだ し て 


いる の で し ょ うか 。 ま た 、 使 用 中 
の メモ リー を どの よう な テク ニッ ク 
を 使っ て 未 使用 の 状態 に 戻す の で 
し ょ うか 。 こ れ ら に つい て 見 て いき 
まし ょ う 

reclaim 処 理 で は 、 ペ ー ジ の リス 
ト が スキ ャ ン さ れ ま す 。 そ の 際 、 ペ 
セス 履歴 を 基 に ペー ジ 
を 回 収 す る か 否 か が 判断 され ます 
MM が アク セス 履歴 を 調査 し 、 ペ ー 
ジ が “最近 " 使わ も れ た よう に 見 える 
場合 に は 回 収 し な い 仕組 みか に な っ て 
いる の で す 。 ス キャ ン が 終わ る と 、 
2 巡 目 、3 巡 目 の ス キャ ン に 入り ま 
す 。 ス メモリー 獲得 の 勢い が 強い と 、 
reclaim 処理 の 実施 サイ クル が 語 
っ て 判定 が 頻繁 に 行わ ん る よう に な 
り ま す 。 そ の 結果 、" 最 近 " と いう 
時 間 の 長き が より 短く な り ま す 

メモ リー の 回 収 方 法 は 、 ペ ー ジ が 
file な の か 、 そ れ と も anon (anonym 
ous の 略 ) な の か 、 あ る い は カー ネ 
ル な の か 、 ペ ー ジ の 内 容 に よっ て 異 
な り ま す ( 表 1)。 少 し 踏み 込ん で 説 
明 し ます 。 

まず 、 ペ ー ジ が file で 、 フ ァイル 
キャ ッシュ と し て 使わ れ て いる 場合 
は 、 その ペー ジ を キャ ッシュ の 管理 
構造 か ら 外 すこ と に よっ て メモ リー 


ー ジ へ の アク 


表 1 メモ リー を 未 使用 の 状態 に 戻す 方 法 
捨て て も 構わ な い 情 報 は 捨て る 。 捨て られ な いも の は 、 中 身 を どこ か 別 の 場所 か ら 取り 出せ る 状態 に し た 上 
で 捨て る 。 


file ファ イル キャ ッシュ 


る 。 ハ ー ド ディ スク へ の 書き 戻し が 2 


状態 の 


必要 な : 
場合 は 、、 そ れ を 行っ て 追い 出す (HDD に 書き 込む ) 。 追い 出し た 後に デー タ が 必 


要 に な っ た 場合 は 
ユー ザー メモ リー や tmp 


追い 出す (6)。 3 和信 に デー タカ 


を 回 収 し ます 。 つ まり 、 キ ャ ッシュ 
量 を 減ら し て 、 未 使用 ペー ジ を 作り 
出す の で す 。 た だ し 、 場合 に よっ て 
は キャ ッシュ の 内 容 を ハー ド デ ィ ス 
ク (HDD) に 書き 出す 必要 が ある 
か も し れ ま せん 。 そ うし た 場合 は 、 
1/O 処 理 (ディ スク アク セス ) が 終 
わる の を 待っ て 回 収 し ます 

く は file で 、 ユ 


ペー ジ が anon も し 
ー ザ ー メ モリ ー や tmpfs と し て 使わ 
れ て いる 場合 は 、 そ の 内 容 を swap 
(スワ ッ プ デバ イス 。 通常 は HDD) 
に 書き 込む こと に よっ て 追い 出し ま 
す 。 追 い 出し た 後に デー タ が 必要 に 
な っ た 際 は 、swap の 内 容 を 読む こ 
処し ます 
AB と 呼ば れる 、 カ ー ネ ル が メ 
モリ ー 上 に 作る オブ ジェ クト の 一 部 
も 回 収 の 対象 に た り ま す 。 メ モリ ー 
ト の オプ ジェ クト が どこ か ら る も 参照 
され な い 状 態 に な 開放 
され ます 。 ま た 、 何ら か の キャ ッ シ 
ュ と し て 動作 し て いる オブ ジェ クト 
は 、 各自 の アル ゴリ ズム に よっ て : 
理 さ れ て お り 、 必 要 に 応じ て 回 収 処 
理 が 動作 し ます 


て いる と 、 


reclaim 処 理 が 走る と 遅く な る 
この よう に ペー ジ の 種類 や 内 容 に 
応じ た 処理 を し て 、 可 能 な メモ リー 
を 回 収 する 仕組 み に つ いて 理解 で き 
まし た か 。 概略 は こう な の で す が 、 回 


、 ーーーー 


iwap (スワ ッ プ デバ イス 。 通常 は HDD) に 
に な っ た 場合 は swap を 読む 


SLAB (スラ ブ ) と 呼ば れる カー ネル メモ リー は 、 参 照 され て いな けれ ば 解放 可能 


収 可能 な スモ リー が ほとん ど な か っ 
た り 、 メ モリ ー 回 収 時 に ディ スク へ 
の 書き 込み が 必要 と な り 処 理 に 時 間 
が 掛か っ た りす る こと も あり ます 

reclaim 処理 に 時 間 が か か る ケー 
ス に お いて は 、 メ モリ ー 獲 得 処理 で 
遅延 が 発生 する の みな ら ず 、kswa 
pd に よっ て CPU 負荷 も 増大 する の 
で 、 ア プリ ケー ショ ン の 反応 が 顕著 
に 遅 く な り が ち で す 。 ま た 、 ペ ー ジ を 
うま く 回 収 で きた と し て も 、 そ れ ま 
で ペー ジ 上 に あっ た デー タ が HDD 
な ど に 追い 出さ れ た 結果 、 その デー 
タ が 必要 に な っ た 際 に HDD か ら 読 
み 出 す 必要 が 生じ る の で 、 レ スポ ン 
ス が 低下 し て し まい ます (スワ ッ プ 
デパ イス に SSD を 用 いる 場合 に は 
事情 が 好転 し ます けど も ) 

つま り 、reclaim 処 理 カ 
ジ の スキ ャ ン と 1/O 処 理 が 増加 し 、 
シス テム の 応答 が 遅く な り ま す 。 筆 
者 は 、 こ の 状態 を "メモ リー 不足 " 
と 呼ぶ こと が 多い と 思っ て いま す 
(と は いえ 、 そ うと は 限ら ない ので 、 
冒頭 で 述べ た よう に 定義 を は っ きり 
させ る よう に し て いる わけ で す が )。 

き て 、 こ の 「 メ モリ ー 不 足 」 を 
確認 し た り 、 予 兆 を 把握 し た りす る 
に は どう すれ ば ぱい い の で し ょ うか ? 
メモ リー の 使用 状況 を 知り た いと 
き 、 最 も 頼り し に な る の が 「/proc/me 
minfo] と いう ファ イル で す 。 


ほる と ペー 


No.2 で は 、 ア プリ ケー ショ ン や 
カー ネル が メモ リー を 要求 し た 際 、 
メモ リー が 足り な いと どの よう に し 
で メモ リー の 回 収 が 行わ れる の か 
に つい て 説明 し まし た 。 ま た 、 メ 
モリ ー 回 収 処理 を 「reclaim 処理 | 
と 呼ぶ こと や 、reclaim 処理 に は ks 
wapd に よる 「background reclaim」 
と 、 セ ルフ サー ビス の 「direct recl 
aim」 が ある と いう 話 も し まし た 。 そ 
し て 、rceclaim 処理 が 走る と 、 

ン が 遅く な る 場合 が ある こと に も 触 
れ ま し た 

ここ で は 、 メ モリ ー を 監視 する ト 
で 知っ て お きた い 各 種 メ モリ ー 量 
や 、 開 発 コ ニテ ィ ー で は recla 
im 処理 に よっ て 動作 が 遅く な る 問 
燃 に 対し て どの よう な 議論 が 交わ さ 
れ て いる の か に つい て 、 紹 介し て い 
きま す 


に が 


/proc/meminfo で 状況 を 把握 
メモ リー の 使用 状況 を 把握 する 
の に 最も 活躍 する の は 、「/proc/me 
minfol フ ァイル で す ( 表 1)。 こ の フ 
ァイル に は 、Linux カー ネル の メモ 
リー 使用 状況 が 動 的 に 反 喘 きれ ま 
す 。 こ の ファ イル か ら 読 み 取 れる 値 
に つい て 、 少 し 探っ て み ま し ょ う 
な お 、 フ ァイル の 中 身 は カー ネル の 
- 部 異な り ま す 
で は 、Fedora 20 の 場合 に つい 
説明 し ます 
まず 、「MemTotall は 文字 通り 
総 メ モリ ー 量 で す 。 こ れ は 、OS の 


メモ リー 管理 下 に ある 総 メ モリ ー 
量 で す の で 、 ハ ー ド ウエ ア と し て 
搭載 され て いる DIMM の 容量 に 比 
べ る と 、 ち ょ っ と ば か り 少 な い 値 
に な り ます 。BIOS が 使用 する 分 


や 、 メ モリ ー 管 理 が 起動 する 前 に 
使わ れ た 分 な ど 、OS の メモ リー 管 
理 下 に は な い メ モリ ー が 人 存在 する か 
ら で す 


次 の 「MemFree」 は 、 未 使用 メ 


モリ ー の 量 で す 。「 空 き メ モリ ー の 
量 ] を 「 使 われ て いな い メ モリ ー の 
量 ]」 と と ら え た 場合 は 、、 ま さ し く Me 
mFree の 値 が それ に 当たり ます 。 ks 
wapd は 、 こ の 量 を 監視 し て 動作 し 
ます 

ファ イル キャ ッシュ 量 が 「Cach 
ed] で す 。 実は 、 こ の Cached に は 
メモ リー 不足 時 に swap に 追い 出す 
ジ も 含ま れ て 
いま す 。 フ ァイル キャ ッシュ 量 の う 
ち 、swap を 使わ な い (swap に 追い 
出せ な い ) ペー ジ の 合計 は 、 


べき tmpfS な どの ペー 


Active (file) 十 Inactive (ffle) 
で す 。 逆 に 、 
Act1ve (anon) 十 Inact1ve (anon) 


は デー タ を swap に 追い 出す べき べ 
ー ジ の 容量 で す 。 後 者 に は 、 プ ロ 
セス で 使用 きれ て いる メモ リー や 
tmpfs、 共 有 メ モリ ー フ ァイル が 含 
まれ ます 


Inactive リ スト か ら メ モリ ー 回 収 

操 e と anon は それ ぞ れ 、Inactive 
と Active の リス ト を 持っ て いま す . 
メモ リー の 回 収 は 、Inactive リ スト 
か ら 行 われ ます 。 回 収 し に くい メモ 
リー は 、Active リ スト に 入れ られ る 
の で す ( 図 1) 

Linux に は 、 プ ロ セ モス が マッ プ し 
て いる メモ リー を reclaim 処理 の 対 


象 外 に する (メモ リー を 固定 する と 
も 言い ます ね )、 mlock0 と いう シス 
テム コー ル が あり ます 。 回 収 対象 に 
な っ て いな い メ モリ ー は 、 meminfo 
の Unevictable と いう 数 値 と し て 示 
きれ て いま す 。 reclaim 処理 は これ 
ら を 無視 し ます 

SLAB (カー ネル メモ リー の うち 、 
SLAB と いう 定型 の メモ リー アロ ケ 
ー タ ー を 使う も の ) の 中 で 、recla 
im 処理 の 対象 に な る も の が Sreclai 
mable と し て 示さ れ ま す 。 大 量 の フ 
ァイル に アク セス する アプ リ ケ ー シ 
ョ ン な ど を 動か す と 、 こ の 値 が 増大 
する こと が あり ます 。SLAB で あっ 
て も 回 収 で き な い も の が 、 Sunrecla 
im に 示 き れ ま す 

anon を 追い 出す に は 、 追 い 出 し 
先 で ある swap 域 が 必要 で す 。 利 用 
可能 な swap 域 の 量 は 、 表 1 に は 幸 
っ て いま せん が SwapFree と し て 見 
えま す 

な お 、swap 域 も いく つか メモ リ 
ー 上 に キャ ッシュ され て いて 、 その 
量 は 「SwapCached] と し て 表示 き 
れ ま す 。 こ れ は 、Inactive (anon) 
ゃ Active (anon) の 中 に 含ま れ て い 
ます 。 


メモ リー 不足 か どう か の 判断 は 困難 

前 回 、 回 収 可能 な メモ リー は 、(1) 
ファ イル キャ ッシュ 、(2) swap 域 
追い 出せ る anon、(3) reclaim 処 
応 す る SLAB の 3 種類 だ と 説 
明 し まし た 。 

meminfo の 内 容 か ら す る と 、 そ の 
最大 量 は 、 


Inactive (file) 十 Active (fi1e) 十 
Inactfve (anon) 十 Active (anon) 十 


家 1 meminto に 示さ れる 主 な メモ リー 量 ) anon は Active 
0 1 リス ト に 追加 の 
MemFree 未 使用 メモ リー 量 
Buffers 一 時 的 に |/O と ひも 付い て いる 量 
Cached ファ イル キャ ッシュ 
SwapCached スワ ッ プ の キャ ッシュ (4) アク セス あり 
Acte Actve (anon) + Active (tle) 

Inactive Inactive (anon) + Inactive (file) 
リス ト を スキ ャ ン (4) アク セス が (2) file は 

ACHlve (aon) 佑 い し 先 が swap 域 と な る 重 し te っ キャ な けれ ば 補充 。 Ninactve リ スト 
Inactive (anon) に 追加 
AIVe (fle6) 導い 出し 先 が swap 志 以外 に な る 重 
ーー トー (⑳ アク セス が こっ 
Unevictable 回 収 が 禁じ ら て いる 量 な けれ ば reclaim 
Mlocked Mlock の 量 処理 | Psms | 
Sreclaimable 回 収 で きそう な カー ネル メモ リー 
Sunreclaim 回 収 で き な い カー ネル メモ リー 

(1) anon は 最初 、Active リ スト に 追加 され る 

(2) file は 大 抵 の 場合 、 最 初 は Inactive リ スト に 追加 され る 
Sreclaimable (3③) reclaim 負 理 で Inactive リ スト が スキ ャ ン さ ペー ジ が まだ 使わ れ そ うな ら Active リ 


と な り ま す (た だ し 、anon は Sw 
apDFree が な いと 追い 出せ ませ ん ) 
swap は 十分 ある も の の 、 フ ァイル 
キャ ッシュ の いく ら か は 重要 な デー 
タ な の で swap に 追い 出し た く な い 
と 仮定 する と 、 


MemFree 十 [Inacttve (f11e) 十 Act1ve 
(fi1e)+Sreclaimablel x0.7<0.9 
(この 係数 は シス テム に 依存 ) 


で 算出 され る 数 字 が 、 体 感 的 に は 
「 空 き メ モリ ー」 な の だ ろう と 思っ 
て いま す 。 こ こ で は swap を 考慮 し 
て いま せん が 、anon を swap 域 に 追 
い 出 し て も る アク セス が な けれ ば 
性 能 へ の 影響 は な いわ け で すし 、 逆 
に ファ イル キャ ッシュ を 捨て る と 性 
能 が 大 きく 低下 する こと も ある で し 
Pdp/ 

つま り 、 swap 域 へ 追い 出し た り 、 
ファ イル キャ ッシュ を 捨て た り し た 
場合 の 影響 に つい て は 、 ケ ー ス パイ 
ケー ス で 考え る 必要 が ある と いう こ 
と で す 。 
ここ に 、 メモリー 不 足 か ど うか の 
判断 に お ける 難し さき が あ り ま す 。 メ 


モリ ー 使 用 量 で 判断 で き な い の な 
ら 、 直 近 の メモ リー 量 以 外 の 統計 情 
報 (例え ば 、I/O 量 や アプ リ ケ ー シ 


スト に 入れ る 。 そ う で な けれ ば 回 収 す る 


(4) Activw リ スト が スキ ャ ン さ れ た 際 は 、 ペー ジ が まだ 使わ れ そ うな ら リ スト 末尾 に 戻し 、 そ 
う で な けれ ば Inactive リ スト に 入れ る (補充 する ) 


図 1 Active リ スト と Inactive リ スト 


anon と file は それ ぞ れ 、Active と Inactive の 2 つの リス ト を 持っ て いる 。 


ョ ン の レイ テン シー、kswapd の 稼 
働 時 間 な ど ) を 加味 し て 判断 する し 


か な いで し ょ う 


メモ リー の 自動 牙 視 機能 

Linux は 、 携帯 電話 や ヤ タ プレ ッ ト 
な ど モ バイ ル 端 末 に も 使わ れ て いま 
す 。 サ ー バ パー や クラ イア ント FC と 
は 異な り 、 こ うし た モバ イル 端末 で 
は ファ イル より も ネッ トワ ー ク デー 
タ を メモ リー に 展開 する こと が 多い 
の で 、 フ ァイル キャ ッシュ より も 
anon の 方 が 多い と いう 状況 に な る 
お めやす 

メモ リー 不足 に よる スロ ー ダ ウン 
が 起こ る と 、 ユ ー ザ ー 体 験 が 悪化 
し て し まい ます 。 モバ イル 端末 の ユ 
ー ザ ー は メモ リー 量 を 意識 し ませ ん 
し 、 シ ステ ム 管 理 者 も いま せん の 
で 、 シ ステ ム 側 で メモ リー 量 を 自動 
監視 する し か あり ませ ん 。 ま た 、 最 
近 は サー バー で も メモ リー 監視 が 複 
雑 に な っ て いま す 

そこ で 、 メ モリ ー の 自動 監視 向け 
の イン タフ ェ ー ス 「vmpressure」 が 
カー ネル 3.10 以 隆信 まれ て いま す 。 


この 仕組 み で は 、 


recla1m 処 理 が 回 収 し た 量 エ recla1m 娘 
理 が スキ ャ ン し た 量 


の 比率 を 計算 し 、 直 近 の メモ リー 回 
収 に か か っ た コス ト が どの 程度 な の 
か を 監視 プロ グラ ム (デー モン ) に 
通知 し ます 。 こ の 数 値 が 下がる と メ 
モリ ー の 使用 状況 が 悪化 し た と 判 
断 し 、 カ ー ネ ル か ら 監 視 デ ー モ ン に 
通知 を 行い ます 。 通 知 を 受け た 監視 
デー モン は アプ リケーション に メモ 
リー を 解放 させ た り 、 制 終了 させ 
た り 、 ネ ットワーク デー タ の キャ ッ 
シュ を 破棄 し た り し て 、 未 使用 メモ 
リー を 増やそ うと し ます 

仮想 マシ ン と 連携 し て バル ー ニ ン 
ダグ する (ある 仮想 マシ ン か ら メ モリ 
ー を 強制 的 に 解放 する ) こと も 考え 
られ ます 。 組み込み 用 途 や クラ ウド 
で は 、 管理 者 が 貼り 付い て メモ リー 
監視 を する わけ に は いか な いで すか 
ら 、 何ら か の ポリ シー 設定 に 従っ て 
自動 的 に メモ リー 監視 を 行え る 機 
能 の 実現 で きる こと で し ょ う 。 


付録 カー ネル ハッ カー が 教え る Linux メモ リー 技術 


No.2 と No3 で は 「 メ ヌメ モリー 回収 ] 
を 解説 し まし た 。 そ の 中 で 、 フ ァ イ 
ルキ ャ ッシュ に つい て は 、「 デ ィ ス 

に 書き 戻し て か ら 回 収 す る | と 説 
明 し まし た 

この 「 デ ィ ス ク に 書き 戻す 」 処理 
ょ ライ トバ ッ ク (Write back) と 呼 
ば ぱ れ ま す 。 そ し て 、 ライ トバ ッ ク の 
アル ゴリ ズム や 設定 が アプ リ ケ ー シ 
ョ ン の 性 能 に 大 きく 影響 し ます 。 こ 
こ で は この ライ ト パ ッ ク に つい て 
て いく こと に し まし ょ う 。 


ワ ァ イ ルキ ャ ッシュ と ライ トバ ッ ク 
こま で 、 詳し く 説明 する こと な 

く 「 フ ァイル キャ ッシュ 」 と いう 
0。 まし た 。 キ ャ ッシュ 
は 、 ア クセ モス を 高速 化 する た め に 、 
本 来 デ ー タ が 存在 する 場所 より る 高 


速 に アク セ モス で ビ 憶 装置 (通常 
は メモ リー) に 、 データ を 一 時 的 に 
コピ ー し て 財 い て この 2 ヵ所 


の デー タ 間 で 必要 に 応じ て 同期 を 取 
る 仕組 み の こ と で す 。 ア プリ ケー シ 
ョ ン か ら フ ァイル を 扱う 場合 、 毎 回 
スト レー ジ に アク セス する の で は 遅 
い の で 、 デ ー タ を メモ リー 上 に 展開 
し て お きま す 。 デ ー タ を CPU の 近 
く (高速 に アク モス で きる 場所 ) に 
置く こと を "キャ ッシュ する " とい 
いま す 

いっ た ん メモ リー 上 に キャ ッシュ 
し て し まえ ば 、read)0 シス テム コー 
ル は メモ リー 上 の キャ ッシュ を 読む 
こと で 高速 化 さ れ ま す ( 図 1)。 同様 
に 、write シ ステ ムコ ー ル も キャ ッ 
シュ (メモ リー) 上 の デー タ を 書き 
換え る 処理 を する こと で 、 高速 に 動 
作 し ます 。 た だ し 、 キャ ッシュ は 6 単 
に メモ リー 上 の 一 時 保存 領域 で す 


か ら 、 そ こ に 書き 込ん で も スト レー 
ジ 上 の デー タ は 変更 きれ ませ ん 
キャ ッシュ 上 の デー タ を 改変 し た 


合 、 そ れ を スト レー ジ に 反映 させ 
る 処理 が 必 この 処理 


を ライ トバ ッ ク と 呼び ます 。 そ し て 、 

ャ ッシュ 上 で 改変 され た た め に ス 
に ライ トバ パック する 必要 が 
ある も の を 「 ダ ー テ ィ ー な キャ ッ シ 
ュ 」、 ラ イト パッ ク し な く て も よい 
も の を 「 ク リー ン な キャ ッシュ 」 と 
呼び ます 

Linux の ライ トバ ッ ク で は 、 プ ロ 
セス に よる キャ ッシュ へ の 書き 込み 
速度 と カー ネル に よる スト レー ジヘ 
の 書き 込み 速度 を 観測 し 、 その 結果 
を 基 に プロ セス に よる キャ ッシュ へ 
の 書き 込み 速度 や ライ トバ ッ ク 頻 度 
を 調整 し て いま す 


書き 込み 調整 は 何 の た めか 

「 キ ャ ッシュ へ の 書き 込み 速度 を 
調整 |」 と 開い て 、 少 々 人 遵 和 感 を 抱い 
た 方 も いる の で は な いで し ょ うか 
書き 込み 加 度 を 遅く し た の で は 、 キ 
ャ ッシュ の 利用 価値 が 減少 し 
まう か ら で す 。 そ れ に も か か わら ず 、 
半 き 込み 速度 を 調整 する の に は ワケ 
が あり ます 

メモ リー に 着目 する と 、 空き メモ 
リー が で きる だ け キ ャ ッ 5 し て 

有効 に 使わ れつ つ 、 かつ メモ リー 獲 
得 処理 の 邪魔 に は な ら な いよ うに 、 
うま く コ ント ロー ル す る 必要 が あり 
ます 。 メモリー 獲得 時 に 未 使用 の 
メモ リー が 少な いと 、 フ ァイル キャ 
ッシュ の 追い 出し が 必要 に な る こと 
が あり ます 。 そ し て キャ ッシュ の 追 
い 出 し を する に は 、 キ ャ ッシュ の 情 
報 が スト レー ジ に 反映 きれ て いる 状 


、 つ まり キャ ッシュ が クリ ー ン な 
状 着 で ある こと が 必要 で す 。 キャッ 
シュ が ダー ティ ー な 場合 は 、 ラ イト 
パッ ク し て クリ ー ン な 状態 に し な け 
れ ば な り ま せん 

この 際 の ライ トバ ッ ク に は 、 問題 
が 2 つ あ り ま す 

1 つ は 、 ラ イト バッ ク 
の も の に メモ リー が な る こ 
と 。 つ まり 、 さらなる メモ リー 獲得 
が 行わ れる 可能 性 が 高い わけ で す 
スト レー ジ へ の 1/O 発 行 に スモ リー 
が 必要 で すし 、NFS な ど で は ネッ ト 
ワー タク 通信 に メモ リー が 必要 で す 
クリ ー ン な ペー ジ 、 つ まり すぐ に Re 
claim 処理 が で きる ペー ジ を 安定 し 
た 量 確保 し て お く こ と は 、 メ モリ ー 
獲得 処理 が 安定 し て 動作 する こと 
に つなが る の で す 

も う 1 つ は 、 メ モリ ー が ダー ティ 
ー な も の ば か り に な る と 、1/O を 特 
に 行っ て いな い プ ロ セ ス ま で 、1/O 
を 発行 し て いる プロ セス の 影響 を 受 


時 の 処理 そ 


ロー か る 


けが ちな こと で す 。 つ まり 、1/O を 
し て いな い ブ プロ セス で あっ て も 、 メ 
モリ ー を 獲得 する 際 の Reclaim 処 理 


に より 生じ る ライ トバ ッ ク の た め 、 
1/O 待 ち で 遅延 し て し まい ます 
読み 書き し て いな い の に 、I/O の 
影響 を 受け る と いう の は 、 ユ ー ザ 
ー が 期待 し て いる こと で は あり ませ 
ん 。 例 えば 、 遅 い USB デ ィ ス ク に 
デー タ を 書き 込ん だ ら 、 デ スク トッ 
プ 全 体 が スロ ー ダ ウン する よう で は 
困っ て し まい ます 。 


速度 を 調整 する る つの バラ メー ター 

こう し た 問題 を 解決 する た め 、 Li 
nux で は ライ トバ パック 速度 を コン ト 
ロー ル す る よう に し て いる の で す 。 


読み 出し 筐 キ ャ ッシュ に デー タ が ある と read() は ディ スク アク セス 


書き 込み 筐 アプ リ は キャ ッシュ に 書き 、 キャ ッシュ か ら デ ィ ス ク へ 


を 回 避 で きる は 適 富 ラ イト バッ ク を 行う 
read() 読み 出し write() ライ トバ ッ ク 
ーー | ディ スク ーー | ディ スク 
ファ イル キャ ッシュ ファ イル キャ ッシュ 
図 1 キャ ッシュ を 使う こと に より 処理 が 高速 に な る 
香 き 込み 量 
ライ トバ ッ ク 速 度 を 調整 する た め の 4 


代表 的 な パラ メー ター と し て 、「ba 
ckground dirty ratio] と 「dirty ra 
tio] が あり ます 。 

background dirty ratio は 、 ラ イ 
トバ ッ ク を 行う カー ネル スレ ッ ド 「H 
usher」 を 起動 する し きい 値 で す 。 シ 
ステ ム の 「 回 収 可能 な メモ リー] に 
対し て 、 ダー ティ ー な キャ ッシュ の 
比率 が background dirty ratio を 超 
えた 場合 に カー ネル スレ ッ ド を 起動 
し ます 。 カ ー ネ ル スレ ッ ド の 起動 タ 
イミ ング は この 数 値 が 小さ いと 早め 
に 、 大 きい と 遅 め に な り ま す 。 

dirty ratio は 、 シ ステ ム 上 の ダー 
ティ ー メ モリ ー の 量 を 制限 する し き 
い 値 で す 。「 回 収 可能 な メモ リー]| に 
対し て 、 ダーティ ー な キャ ッシュ の 
比率 が この 値 を 超え な いよ うに 、wr 
ite0 を 行う プロ グラ ム の 速度 を 調整 
し ます 。 実は 、 こ の dirty ratio の 挙 
動 は カー ネル 32 (2012 年 1 月 に リリ 
ー ス ) か ら 大 きく 変更 され まし た 

カー ネル 3」1 以 前 の 動作 は 、write0 
発行 時 に ダー ティ ー 量 と dirty ratio 
を 比較 し 、dirty ratio を 上 回 っ て い 
る 場合 は write0 を し ば らく 止め て 寝 
か せる と いう も の で し た 。 つ まり 、 
一 定 の 所 まで は 好き な だ け 書 か せ て 
お いて 、 一 定 値 ま で 到達 し た らい き 
な り (ひょっと し た ら 長 時 間 ) 寝る 


を 時 間 


・3.1 以 前 は 書い て 長く 理 る を 継 り 返 す (|/0 待 ち で 応答 で き な い 時 間 が 戸 続 的 に 続く )。 グ ラフ に する と ガタ ガタ する 
・32 以 降 は 書き 込み 連 度 が 抑制 され 短 時間 ずつ 細かく 須 る (1 回 当たり の 待ち 時 間 が 短く な り 、 応 答 が 高速 に な る ) 


図 2 diy ratio を 超え る 青き 込み を し た 場合 の 青き 込み 量 の 推移 


こと に な り ま す 以後 は ダー テ 
ィ ー の 量 が 増加 する に 従っ て こま め 
に wait を 入れ 、write(0) の 加 度 を コ 
ント ロー ル す る よう に な っ て いま す 
( 図 2)。 こ れ に より 、32 以 降 は 従来 
より も write0 を 行う アプ リ ケ ー シ ョ 
ン が 「 長 く 寝 る 」 こと が 少な く な っ 
て いま す 

また 、3.1 以 前 は し きい 値 に ぶつ か 
っ た と ころ で 、 直接 ラ イト バッ ク 処 
理 を 呼び 出す 処理 が 動作 し 、 これ が 
効率 的 な 1/O を 阻害 する 大 き な 外 乱 
要因 に な っ て いま し た 。 つ まり 、 メ 
モリ ー 管 理 か ら 勝手 に ライ トバ ッ ク 
IO が 出る の で 、 フ ァイル シス テム 
か ら す る と ベス ト の 形 で I/O を 実行 
で き な い の で す 。 3 以降 は この 処理 
が 取り 除 か れ て 、 従 来 より も 効率 よ 
く I/O を 行え る よう に な っ て いま す 
(I/0 は 基本 的 に usher ス レッ ド に 
任 さ れ ま す )。 

3.1 以 前 の カー ネル と は 動作 が か 


な り 大 きく 変わ っ て いま すか ら 、 大 
量 の 書き 込み を 行う アプ リ で 意識 し 
て 比較 し て みる と 面白 いで し ょ う 。 


タス ク ご と な ど に コン トロ ー ル 

ここ で は 触れ ませ ん で し た が 、di 
rty raiio に は タス ク ご と の コン ト 
ロー ル や プロ ッ ク デ バイ ス ご と の 設 
定 項目 も あり ます 。 例 えば 、/var/ 
lopg の ある プロ ッ ク デ バイ ス の dir 
ty ratio 制 限 を 緩和 し 、 遅 く て ダー 
ティ ー が た まり が ちな USB ド ライ 
プ の dirty ratio を 下げ る と いっ た 設 
定 が 可能 で す (USB を 書き 込み する 
プロ セス が さら に 遅く な る こと も あ 
り ま す )。 

これ ら の チュ ー ニ ング で ダー ティ 
ー/ ラ イト バッ ク 量 を 制御 する こと 
に より 、 メ モリ ー 獲 得 コ スト や ヤー 
度 に 出る I/O の 量 を 下げ て 、 シ ステ 
ム の 安定 性 を 大 きく 高め られ る 可能 
性 が あり ます 。 


付 録 


No.1 一 No.4 で 、 メ モリ ー の 割り 
当て 方 や 割り 当て た メモ リー の 回 収 

ジッ ク に つい て 説明 し て きま し 
た 。 カ ー ネ ル の メモ リー 管理 機構 
(MM) は 「 メ モリ ー 割 り 当 て 要求 」 
を 受け る と 、 未 使用 領域 か ら メ モリ 
ー を 切り 出し て 割り 当て ます 。 未 使 
用 の メモ リー 領域 だ け で は 不 十分 
な 場合 は 、 使 用 中 の メモ リー を 回 収 
(reclaim 処理) し て 、 そ れ を 割り 当 
て て いき ます 

と は いえ 、reclaim 処理 で 解放 で 
きる メモ リー 量 に は 限り が あり ま 
す 。「 メ モリ ー を 十分 に 回 収 で き な 
い 場 合 ] も ある わけ で す 。 そ うし た 
と き 、 つ まり MM が 要求 を 下回る 
の か プログ ラム に 割 り 当 

られ な い 場 合 、 そ の プロ グラ ム は 
まとも に 動か な いこ と が ほとん ど で 
す 。 そ うし た シス テム が 正常 に 機能 
し な い 状 態 を 「 ア ウト オプ メモ リー 
(00M)」 と 呼び ます 


Anon ば か り で 追い 出せ な い 

「 メ モリ ー を 十分 に 回 収 で き な 
場合 ] と は 、 どの よう な 状況 で し ょ 
うか 。 そ れ を 理解 する た め 、 典 型 的 
な 2 つの ケー ス を 見 て み ま し ょ う 

まず 、 ス ワッ プ デ バ イス か 
ステ ム で は 、 ユ ー ザ ー メ モリ ー (An 
on) を スワ ッ プ に 追い 出せ ませ ん 。 こ 
の よう な シス テム で 回 収 が 可能 な メ 
モリ ー は 、 フ ァイル キャ ッシュ に 限 
られ ます 。 つ まり 、 ユ ー ザ ー プ ログ 
ラム が 大 容量 の メモ リー 割り 当て を 
要求 する と 、 フ ァイル キャ ッシュ を 
追い 出し 切っ た 時 点 で 回 収 可 能 な 
メモ リー が 無く な り 、OOM に 陥る 
わけ で す の 上 ) 


スワ ッ プ デバ イス が 付い て いて 


も 、Anon を 追い 出し 続 


カー ネル ハッ カー が 教え る Linux メモ リー 技術 


(1) ス ワッ プ 領 域 が 無く (ある い は 使い 切っ て )、 メ モリ 


ー が Anon で 埋まっ た 状態 


けた 結果 、 ス ワッ プ 領 
域 を 使い 切っ て し まう と 
OOM に な る こと が あり 
ます 。 そう 1 き 、 大 抵 
は アプ リケーション の 動 
作 が 鈍く な る と いう 前 兆 
が あり ます 。 た だ し 、tm 
pls (メモ リー 上 に 作成 す 
る ファ イル シス テム ) に 
大 量 の デー タ が ある ケー 


ノーFo 


Anon ファ イル カー ネル 


ーー ニー ニニ ニニ = ニー 


総 メ モリ ー 


(2) NUMA に よる OOM。 ノ ー ド 1 に は 空き メモ リー が 
ある の に 、 ノ 
うと 、 こ うし た 状況 に な りや すい ) 


Anon フ ァイル カー ネル Anon ファ イル 空き カー ネル 


ー ド 0 に は 無い 例 で ある (cpuset な ど を 使 


ノー ド 1 
総 メ モリ ー 


図 1 OOM が 生じ る 代表 的 な ケー ス 


ス で は 、 ス ワッ プ 領 域 が 
乏しく な っ た こと に 気付 
き に くい か も し れ ま せん 

な お 、Anon に 加え て ファ イル や 
カー ネル が 相当 量 あ る 場合 で も 、 1/ 
O 待 ち が 長 く 、 フ ァイル キャ ッシュ 
が ダー ティ ー な 状態 の ペー ジ ば か り 


に な る と 、OOM が 発生 す と が 
あり ます 。 そ うし た と き は 、No4 で 


紹介 し た 「dirty_ratio] (シス テム 
ト 上 の ダー ティ ー メ モリ ー の 量 を 制限 
する し きい 値 ) を 低く する と OOM 
が 生じ に くく な る の で 、 性 能 要 件 と 
空き メモ リ 見 な が ら 適 切 に チュ 
ー ニ ング する こと が 大 切 で す 


メモ リー が ある の に OOM 発 生 

も う 1 つ は 、 最 近 増 えて いる NU 
MA (Non Uniform Memory Archi 
tecture) に よる OOM で す 。 NUMA 
は 、CPU と メモ リー の 位置 関係 が 一 
定 で は な い 、 コ ンピュータ 構造 の こ 
と で す 。2 ソ ケッ ト 以 上 の x86 搭 載 
サー バー (IA サー バー) は 、 こ の 
NUMA に な っ て いま す 

NUMA の 場合 、CPU と 距離 の 近 
い メ モリ ー を ひと くく り に し た 「 ノ 
ー ド 」 と いう 制御 構造 が カー ネル 内 
に 作成 され ます . 


また 、NUMA で は アプ リ ケ ー シ ョ 
ン の 性 能 チ ュ ォ ー ニ ング な ど で 、 アプ 
リケーション が 動作 する ノー ド を 限 
定 す る こと が あり ます 。 | 特定 ノ 
ド か ら の み メ モリ ー を 割り 当て る 」 
と いっ た チュ ー ニ ング を 行っ て いる 
と 、 そ の ノー ド の メモ リー を 回 収 で 
き な く な っ た 時 点 で OOM が 生じ ま 
す ( 図 1 の 下 )。 こ の 例 で は 、 ノ ー 
ド 1 に は メモ リー が 余っ て いる ( 空 
き メ モリ ー が ある ) の に 、 ノ ー ド 0 
に は メモ リー が 無い の で 、「 (全体 と 
し て は ) メモ リー が ある の に OOM 
が 発生 ] し て いま す 

この ほか 、 ユー ザー の 設定 ミス に 
よっ て 、OOM が 発生 する こと も あ 
り ま す 。 例 えば 、mlock (メモ リー 
を 物理 ペー ジ に ロッ ク ) や 共有 メモ 
リー の ロッ ク に よっ て メモ リー を 大 
量 に 固定 し た た め に 、 メ モリ ー を 回 
収 で き な く な っ MM 225 する 
な どの ケー ス で す 

まだ 92 の = ゲト ャ 
1 (カー ネル の パラ メー ター を 実行 
時 に 変更 する コマ ンド ) に よる Hug 
etlbfs( ヒ ュー ジ ペ ー ジ を 持つ メモ リ 
ー を 取得 可能 な ファ イル シス テム ) 


の 容量 設定 の ミス に よっ て 、 大量 の 
メモ リー が Hugetlbfs に 張り 付い て 
し まい 、OOM が 発生 する こと も あ 
り ま す 。 

変わ っ た と ころ で は 、fork0 を 連 
発し て メモ リー の ほとん ど が カー 
ネル メモ リー と し て 消費 され て し 
まい OOM が 発生 する 、 共 有 メ モ 
リー を 数 千 も の プロ モス か ら 共 有 
し た た め に ペー ジテ ー ブ ル が 多く 
な っ て OOM が 発生 する 、 と いっ 
た ケー ス も あり ます 。OOM が 起 
る 場合 に は 、 リ ソー ス の 使用 状況 を 
調べ て 原因 を 突き 止め る 必要 が あり 
ます 


OOM 発 生 時 に メモ リー を 強制 解放 

00M 状態 に 陥っ た 際 に プロ モス 
を 自動 的 に 削除 (Kil) し て 、 メ 
モリ ー を 強制 解放 する 仕組 み を 
「OOM Killer」 と 呼び ます 。 空き 
メモ リー を 確保 で きず に シス テム 自 
体 が 停止 する と いう 最悪 の 上 感 
遊 け る た め に 用 意 さ れ た 機能 で す 
が 、 あ まり 人 気 が あ り ま せん 。 普 
通 に 使っ て いる と どの プロ セス が 
先 に Kil され る の か が 分 か ら ず 、 強 
制 解放 後 の 状況 を 予測 困難 だ か ら 
で す 

OOM Killer の 犠牲 者 と な る プロ 
セス の 選出 法 を 図 2 に 示し まし た 。 
各 プ ロモ ス の 最終 スコ ア を 計算 し 、 
最も 高い プロ セス を 選び ます 。 計算 
式 を 見 る と 、 メ モリ ー を た くき ん 使 


っ て いる プロ セ モス が 選択 され る こと 
が 分 か る で し ょ う 。 

同 ス コア の プロ モス が 複数 ある 場 
合 は 、 最も 若い プロ モス が 選択 され 
ます 。 計 算式 の 中 に ある 「oom_sc 
ore_adj] は 、 ユ ー ザ ー か ら 与 えら 


① ユ ー ザ ー 設 定 に よる 「 ポ ボー ナス 」 を 算出 (「oom_score_adj] に は 


設定 可能 ) 


「(root ユ ー ザ ー の プロ セス の ) ボーナス] = 


値 一 30 


「( 非 root ユ ー ザ ー の プロ セス の ) ボーナス] = 


値 ] 


ー1000 一 1000 の 値 を 


[ 各 プ ロ セ ス の foom_score_adj] と いう 


「 各 プロ セス の 『oom_score_adj] と いう 


⑮ プ ロ セ ス の メモ リー 使用 量 で ある 「 コ スト 」 な 算出 
「 コ スト 」 -「 物 理 メモ リー 使用 量 ] 十 「 ベ ペー ジテ ー ブ ル サイ ズ ] 十 「 ス ワッ プ 使 用 量 ] 


3「 コ スト に 、「 ボ ー ナ ス 」 お よび 総 メ モリ ー 容 量 に 比例 し た 数 値 を 加え た 「 最 終 ス コア 」 を 
算出 


「 最 終え スコ ア 」 一 「 コ スト ] 十 「 ボ ー ナ ス ] x M/1000 


M ニ 「00M に 関連 する 総 メ モリ ー 量 ] 
図 2 OOM の スコ ア 計 算 


最終 スコ アー が 最も 高い プロ セス が 、OOM Killer の 犠牲 者 に な る 。 


れ た 重み 付け の 値 で す 。 こ の 値 は 、 
/proc/ プ ロモ ス ID/oom_score_adj 
と いう procfs 上 の ファ イル に 設定 
し ます 。Kil きれ る と 困る プロ モス 
に は 、-1000 を 設定 し て お く と 絶対 
に Ki 山 き され な く (死な な く ) な り ま 
す 。sshd な どの デー モン の 中 に は 、 
自分 で この 値 を 設定 する も の が あり 
ます 

OOM Killer で は 、 ど うに も な ら 
な いこ と も あり ます 。 例え ば 、 前 述 
し た の 湯量 
ー ス で は 、Kil し た 途 端 に 新た に プ 
ロモ ス が fork0 され 、 氷 吉 に メモ リ 
ー の 格 湯 が 解消 し な いこ と が あり ま 
す 。 また 、 く や 共 有 メ モリ ー 
の ペー ジテ ー ブ ル に 絡む トラ ブル の 
場合 は 、、 プ ロモ ス を 多少 Kil し て も 
焼け 石 に 水 状態 で す 

強制 解放 後 の 状 況 予測 が 難し い 
こと か ら 、 ク ラス ター を 組ん で いる 
場合 な ど に は 、OOM 発 生 時 に OOM 
Killer を 動作 させ ず 、 カ ー ネ ル パニ 
ッ ク を 起こ す よ うに 設定 する ケー 
ス が 少な く あ り ま せん 。「vm.pan 
ic_on_oom] の 値 を 「1] に する と 、 
OOMI Killer を 起動 せ ず に 、 そ の まま 
パニ ッ ク し ます 。 つ まり 、 メ モリ ー 
相当 の 原因 に な っ た と 推察 きれ る プ 


ロ セ ス を Kil す る の で は な く 、 カ ー 
ネル バニ ッ ク を 起こ し ます 

業務 シス テム で は 、 必要 な アプ リ 
ケー ショ ン が まとも に 動作 し な い 状 

ほ で シス テム が 動作 し 続け て も 意味 
が あり ませ ん 。 そ こ で 、「vmpanic_ 
on_oom] の 値 を 「1| に 設定 し つ 
つ 、 ク ラス ター で シス テム を 2 重 化 
し 、 ホ スト 機能 を フェ ー ル オー バー 
し て 業務 を 継続 する わけ で す 


OOM Killer と Low Memory Killer 
OOM Killer の 改善 は 誰 し も 1 回 
は 考え る よう で 、 カ ー ネ ル 内 に スク 
リプ ト を 仕込 ん で 自在 に 操れる よう 
に する な ど 、 さ ま ざ ま な アイ デア が 
出さ れ て いま す 。 筆 者 が 気 に な っ て 
いる の は 、Android の 「Low Mem 
ory Killer] で す 
空き メモ リー が し きい 値 以下 に 
な っ た ら 、Android 上 で ヒー プ (An 
on) を 使用 し て いる に も か か わら ず 
利用 され て いな い サ ービス を Kil 
する も の で す 。 コ ン モ セプト は 00 
M Kiler と 似 て いま す が 、 起動 タイ 
ミン グ や チュ ー ニ ング 項目 が 異な り 
す 。 特 に 、 ア ブリ の 挙動 や 設定 を 
意識 し て 繁 牲 者 を 選ぶ 点 に 大 き な 倍 
い が あ り ま す 。 


付 録 


No.5 で は 、 要 求 を 下回る メモ リー 
量 し か 割り 当て る こと が で きず 、 
ログ ラム が 正常 に 機能 し な v Ms 
ある 「 ア ウト オプ メモ リー」 を 取り 
ト げ まし た で は 、 少 し 視 
変え た て 、 メ モリ ー の 管理 単位 で ある 
「 ペ ー ジ 」 に つい て 、 基 本 的 な と こ 
ろか ら 説 明 し ます 

メモ リー 上 の デー タ の 位置 は 、 ア 
ドレ ス (番地 ) に よっ て 示さ れ ま 
す 。 そ し て 、 メ モリ ー モ ジュ ー ル 
(DIMM) に アク モス する 際 の デー 
タ の 位置 情報 は 「 物 理 ア ドレ ス 」 と 
呼ば れ ま す 

CPU は 0S カ ー 


ネル が 物理 アド レ 
ス に 別名 を 割り 振れ る よう に する 機 
能 を 備え て いま す 。 こ の 別名 の アド 
レス を 「 論 理 ア ドレ ス 」 と 呼び ます 
x86 系 CPU に は 、 ペ ー ジ と いう メモ 
リー の 塊 を 単位 に し て 、 論理 ア 
ス えと 物理 アド レス を 変換 する 機能 が 
あり ます 
ペー ジ の サイ ズ は 、 プ ロ セ ッ サ の 

仕様 で 決ま っ て いま す 。 例 えば x86- 
64 系 の CPU で は 、4K バ イト 、2M 
パイ ト 、1G バ イト な どの サイ ズ の ペ 
ー ジ を 利用 で きま す 

Linux カー ネル も 、 論 理 アド レス 
を 利用 し て いま す 。 そ れ に より 、 メ 


モリ ー モ ジュ ー ル と は 独立 し た 、 カ 
ー ネ ル や プロ モス の メモ リー 構造 を 
作り 上 げ て いる の で す 。Linux カー 
ネ 1 論理 アド レス を 利用 で きる 
う 、 論理 ア ドレ ス と 物理 アド レス 
5 まほ で ある 「 ベ ペー ジテ ー ブ ル ]」 
を 作成 し 、 そ れ を CPU に 伝え ます 
( 図 1) 
ペー ジ サ イズ の 範囲 内 (例え ば 
4K バ イト 内 ) で は 、 論 理 ア ドレ ス 
上 で 連続 する メモ リー 領域 が 、 物 理 
アド レス 上 に お いて も 連続 に な り ま 
す 。 逆 に 、4K バイ ト の 境界 を また 
ぐ と 、 論理 的 に は 隣 の アド レス で あ 
っ て も 、 物 理 的 に は 離れ て いる か も 
し れ ま せん 


CPU キャ ッシュ で 高速 化 

さき て 、CPU に は メモ リー アク セス 
を 高速 化す る た め に 、CPU キ ャ ッ 
シュ と 呼ば れる メモ リー が 搭載 され 
て いま す 。 こ の CPU キャ ッシュ は 、 
容量 は 小さ いも の の 、 極めて 高速 に 
アク モス が 可能 な こと が 特徴 で す 
CPU が デー タ を 読み 出す 際 は 、 ま ず 
CPU キャ ッシュ に アク セス し ます 
CPU キャ ッシュ 内 に デー タ が ある 


場合 は 、、 そ れ を CPU に 高速 に 供給 
し ます 。 CPU キャ ッシュ に デー タ が 


プ 
(論理 アド レス と 物理 アド レス の 対応 表 ) 


図 1 Linux カ ー ネ ル が ペー ジテ ー ブ ル を 作成 


カー ネル ハッ カー が 教え る Linux メモ リー 技術 


ジ と TLB 


無けれ ば 、 メ モリ ー か ら 読 み 出 し て 
CPU に 供給 し ます 。 そ し て 、 次 回 の 
アク モス 時 に 利用 で きる よう に 、 メ 
モリ ー か ら 読 み 出 し た デー タ を CPU 
キャ ッシュ に 保持 し て お きま す 

この 仕組 み に よ っ て メモ リー アク 
モス が 高速 化 さ れ 、 プ ログ ラム の 
性 能 が 向上 し ます 。 な お 、CPU キ 
ャ ッシュ を うま く 使 っ て アー み で に 
高速 に アク モス で きた 場合 を 「 ヒ ッ 
ト 」、 そ う で な い 場 合 を ス 」 と 
呼び ます 


アド レス 対応 表 を TLB に キャ ッシュ 

先ほど 、 メ モリ ー モ ジュ ー ル (DI 
MM) に アク モス する 際 は 物理 アド レ 
ス を 用 いる と 説明 し まし た 。 で は 、 
CPU キャ ッシュ の メモ リー アド レ 
ス は どの よう に 指定 する の で し ょ う 
か ? x86 系 の CPU を 含め て 、 現 代 
の 多く の CPU は 、CPU キャ ッシュ 
に アク セス する 際 に 物理 アド レス を 
用 いま す 

と いう こと は 、 プ ログ ラム が 指定 
理 ア ドレ ス が 、 キ ャ ッ シ 
クモ ス さ れる まで に 、 物 理 アド 
レス に 変換 され る 必要 が ある わけ で 
す 。 し か も 、 この 変換 は 高速 に 行わ 
れる べき で す 。 こ れ を 行う 変換 装置 
の こと を Translation Lookaside 
Buffer (TLB) 」 と 呼び ます 。 TLB 


の 実態 は 、 論理 アド 2 に の 選 
レス の 対応 表 )| を 


保持 する 、 ご と く 少 量 の 抽 束 キャ の 
シュ メモ リー で す ( 図 2) 

TLB に アド レス 対応 情報 が あ 
場合 、 生え れ か 人 
アド レス は 即座 に 物理 アド レス に 変 
換 さ れ て 、 キ ャ ッシュ へ の アク セス 
な ど に 使用 きれ ます 。TLB に アド 


レス 対応 情報 が 
CPU に 依存 し ます 
の 2 種類 が あり ます 

1 つ は 、TLB 例 外 を 発行 し 、 指 先 
し た 論理 アド レス に 対す る 物理 アド 
レス の 情報 (TLB エ ント リー) を 
作成 する よう に O 
う も の で す 
め OS か ら 渡 きれ て いた ペー ジテ ー 
プル を CPU が 読み 込ん で 、CPU が 
自動 的 に TLB に エン トリ ー を 作る 
も の で す 

x86 系 の CPU は 、 後 者 の 方 法 を 採 
用 し て いま す 。Linux カー ネル は 、 
メモ リー 上 に 作成 し た ペー ジテ ー プ 


合 の 動き は 、 


大 ま か に 、 次 


も う 1 つ は 、 あ ら 


ル の 位置 を あら か じ め CPU に 教え て 
3 に 応 

し 、 TLB 
エン トリ ー を 更新 する の で す 。 な お 、 


ペー ジテ ー プ ル の 位置 は 物理 アド レ 
ス で 示さ れる の で 、 ア クセ モス する 際 
BE ア ドレ ス を 物理 アド レス に 変 
こと は あり ませ ん 

も 、 ペ ー ジ テー ブル の 読み 
メモ リー アク セス が 3 一 4 回 
す 。 こ の と き の ア クセス が 


発生 し ま 
CPU キャ ッシュ に ヒッ ト す る か どう 
か に も より ます が 、 ヒ ッ ト し な か っ 
た と き は メモ リー アク モス 回 数 が 増 
加 し 、 大 き な 人 性 能 ロ ス が 発生 し て し 
まい ます 


大 き な ペ ー ジ サイ ズ を 利用 する 
TLB の エン トリ ー 数 が 512 の 場 
合 、 ペ ー ジ サイ ズ が 4K バ イト な 
1 バイ ト (4K バ イト x 512) 
の 空間 の アド レス 変換 表 を 保持 で 
きま す 
こし 、 最近 で は 搭載 する メモ リ 
ー 容 量 が 数 G パ イト で ある こと も 珍 


TLB 


お 


請 理 アド レス と 物理 アド レス を 
キャ ッシュ し て お き 高 速 に 変換 


CPU キャ ッシュ 
図 2 TLB に 論理 アド レス と 物理 アド レス の 対応 表 を 保持 


xB6 系 CPU の 場合 の 例 ! 


な い の で 、2M バ イト で カ パ ー 


きる の は ご く 狭 い 範 胃 に と どまり 
す 


骨頭 で 触れ まし た が 
サポ ー ト する ペー ジ の サイ ズ は 4K 
バイ ト だ け で は あり ませ ん 。 例 えば 、 
2M バ イト や 1G バ イト の ペー ジ サ イ 
ズ も 扱え ます 。 2M バ イト の ペー ジ 
な ら 1G バ イト (2M バ イト x 512)、 
1G バイ ト の ペー ジ な ら 512G バ イト 
(1G パ イト x512) の 空間 の アド レ 
ス 変 換 表 を CPU 内 に 保持 で きる の 
で 、 事 情 が 大 きく 改善 され ます 

な お 、 例 えば 1G バ イト の ペー ジ 
サイ ズ に する と 、 メ モリ ー 容 量 が 8G 
パイ ト の シス テム の 場合 に は 8 ペー 
ジレ し か 取れ ませ ん 。 少量 の メモ リー 
を 扱う プロ グラ ム も 多い の で 、 常に 
巨大 な ペー ジ サ イズ を ば いい と 
いう こと で も な いわ け で す 

実は 、Linux カー ネル の カー ネル 
域 の 一 部 で は 、1G バ イト の ペー ジ 3 
使っ て いま す 。 カ ー ネ ル は 全 メ モリ 
ー 域 を 扱う の で 1G バ イト 以上 連続 
する アド レス を 用 と が 多く 、 
論理 アド レス と 物理 アド レス の マッ 


写 真 1 
fo] フ ァイル を 確認 する 
と THP の 量 が 分 か る 


[/proc/memin 


ピン グ 単 位 を 細か くす る 必要 が な い 
か ら で す 
ユー ザー 空間 で も 2M バ イト に 変換 

Linux カー ネル は 「Transparent 
Huge Page (THP)」 と 呼ば れる 機 
能 を 備え て いま す 。 こ れ は 、 ア プリ 
ケー ショ ン に 対し て は ペー ジ の サイ 
ズ を 4K バ イト に 見 せつ つ 、 勝手 に 
(x8664 な ら ) 2M バ イト の ペー ジ サ 
イズ の ペー ジテ ー ブ ル に 変換 する も 
の で す 

THP は 連続 的 に 使用 する 論理 ア 
ドレ ス が ある 場合 に 2M バ イト の ペ 

ジ を 割り 当て る ほか 、 パラ バラ の 


4K バ イト の ペー ジ が 


バイ ト の ペー ジ サ イズ 
ます 

これ に より 、TLB 
効率 よく 扱え る よう に な り 、 ア プ 
リケーション の パフ ォ ー マ ンス が 
向上 し まし た 。THP の 量 に つい て 
は 、 写 真 1 の よう に 「/proc/me 
minfo] ファ イル か ら 情 報 を 入手 で 


きま す 


付 録 


Linux 上 の プロ セス が ファ イル を 
読む 際 に は 、 デ ィ ス ク か ら 読 み 出 
し た デー タ が OS の 働き に よっ て シ 

テム メモ リー に キャ ッシュ され ま 
す 。 ディスク に 比べ る と 、 メモリー 
へ の アク セス は 高速 な の で 、 一 般 的 
な アプ リケーション は この キャ ッ シ 
ュ 機 構 の 思 恵 を 受け ます 

し か し 、 データベース な どの よう 
に ディ スク へ の デー タ 記 録 を 主眼 に 
國 い た アプ リケーション の 場合 ( 

邊 タ の キャ ッシュ 管理 を 行い 


ます 。 そ の よう な アプ リケーション 
に と っ て は 、OS の キャ ッシュ 機構 


は 族 魔 な 存在 で す 

そこ で 、 ア プリ ケー ショ ン の メモ 
リー と ディ スク の 間 で 直接 デー タ を 
や り 取 りす る 「 ダ イレ クト 1/0] (Di 
rect I/O) と いう 仕組 み が 用 意 きれ 
て いま す 。 ダ イレ クト 1/O を 使っ た 
場合 、 ア プリ ケー ショ ン は OS の 
キャ ッシュ 機構 の 存在 を 意識 する 
こと な く 、 自身 の 論理 に 沿っ て デー 
タ の 出し 入れ や 整合 性 確保 を 行え 
ます 。 こ こ で は 、 この ダイ レク ト / 
0 と メモ リー 管理 の 関係 に つい て 


例 通常 (ファ イル キャ ッシュ 経由 ) 


OS カー ネル 


取り 上 げ ま す 


ダイ レク ト I/0 の 処理 の 流れ 

ダイ レク ト 1I/0 の 処理 流れ を 、 通 
常 の ファ イル キャ ッシュ 経由 の ファ 
イル 読み 出し 処理 と 比較 し て み ま す 
( 図 1)。 ま ず 、read) シス テム コー 
ル に よっ て ファ イル 中 の デー タ を ユ 
ー ザ ー の バッ ファ ー に 読み 込む 操作 
を 考え て み ま し ょ う 
read0 の 場合 に は 、 フ ァイル キャ 
ッシュ に デー タ が ある か どう か を 確 
認 し 、 も し 存在 する な ら キ ャ ッシュ 
の デー タ を ユー ザー の バッ ファ に コ 

ピー し ます 。 キ ャ ッシュ に 存在 し な 
い 場合 に は 、O0S が ファ イル シス テ 
ム を 経由 し て その 下 の プ ロッ ク デ バ 


イス か ら デ ー タ を 獲得 し ます 。 そ し 
て 、 その デー タ を ファ イル キャ ッ シ 
ュ に 入れ た 後に 、 そ こ か ら ユ ー ザ ー 


バッ ファ ー に コピ ー し ます 

で は 、 ダ イレ クト 1/O の 場合 に は 
どう な る の で し ょ うか 。 ダ イレ クト 
1/O の read で は 、 フ ァイル キャ ッ シ 
ュ に デー タ が ある か どう か を 確認 し 
ませ ん 。 単に 、 フ ァイル シス テム や 


カー ネル ハッ カー が 教え る Linux メモ リー 技術 


クト I!/O と COW 


デバ イス に ユー ザー バッ フ 
所 を 指定 
込み ます 

ダイ レク ト 1/O の 場合 は "ダイ レ 
クト " と いう 名 前 の 通り 、 デバイス 
か ら ユ ー ザ ー の バッ ファ ー、 つ まり 
Anon メモ リー に デー タ を 直接 転送 
する わけ で す 。 こ の デー タ 転 送 は 、 
基本 的 に は OS が デパ イス に デー タ 
k 送 先 の 物理 アド レス を 教え る こと 
っ て 、 行わ れ ま す 。 デ ー タ 転送 
が 終わ る まで 、OS は デー タ 転 送 先 の 
Anon メモリー が 解放 きれ た り 、 ス 
ワッ プア ウト され た り し な いよ う 、 
メモ リー 監視 を し ます 


ァ ー の 場 
て 、 そ こ に デー タ を 読み 


Copy-Dn-Write 

ここ で 、 話 を OS の メモ リー 管理 
機能 の 1 つ で ある 「Copy-On-Write」 
(COW) に 転じ し ます 。 こ の 機能 は 、 
プロ モス を 複製 する fork() で 使わ れ 
て いま す 

fork0 が 実行 され る と 、OS は ス 
レッ ド や 利用 し て いる メモ リー、 オ 
ー プ ン 中 の ファ イル 情報 な ど を 複製 
し 、 新 た な プロ セス を 生成 し ます 。 
* 複 製 " な の で メモ リー も 複製 する わ 
け で す が 、 単純 に 全 コ ピー し た の で 
は fork0) の 処理 時 間 が 極め て 長く な 
り ま す 。 ま た fork() し た 後 、 例 えば 
execve0 に よっ て 別 の プロ グラ ム を 
起動 する 場合 に は 、 メ モリ ー の 内 容 
を すべ て 捨て る こと に な る の で 、 全 
コピ ー し て も 無駄 に な っ て し まい ま 
す 。 つま り 、 メモ リー の 全 コ ピー は 
得策 で は あり ませ ん 。 

Copy-On-Write は メモ リー を 全 コ 
ピー し た か の よう に 見 せ か ける 技術 
で す 。 具体 的 に は 、fork0 時 に は ペ 
ー ジ テー ブル だ け を コピ ー し ます 。 


メモ リー の 内 容 で は な く 


セス 


親 プロ セス 子 プ ロ セ ス 


fork() 直 後 は 
メモ リー を 共有 
図 2 fork() 実 行 後 の Copy-On-Write の 動作 


そし て 、 複製 され ん た プロ モス 間 で メ 
モリ ー を 共有 し ます 。 そ の 後 、 ど ち 
ら か の プロ モス か ら メ モリ ー へ の デ 
ー タ 書き 込み が 発 
リー の 内 容 を 実 
ジテ ー ブ ル が 指す 物理 アド レス を 分 
離し ます ( 図 2) 

この 書き 込み の 発生 を 捕まえ る 処 
理 に は 、CPU が 持つ 通知 機能 を 使 
いま す 。fork0 時 に ペー ジテ ー プ ル 
を コピ ー す る 際 、 親 プロ モス と 子 プ 
ロ セ モス と も に Anon メモ リー を リー 
ド オ ン リ ー で マッ プ し ます 

リー ド オ ン リ ー の メモ リー に 対し 
て 書き 込み が 発生 する と 、CPU か ら 
OS に イベ ント が 通知 きれ ます 。OS 
は その 通知 を 受け 、 メ モリ ー を コピ 
ー し ます 。 そ の 後 、 親 プ ロモ ス と 子 
プロ セス と も に Anon メ モリ ー を 今 
度 は リー ドラ イト (読み 書き 可能 ) 
で マッ プ す る の で す 。 

つま り 、 fork() 時 に は メモ リー を 
コピ ー せ ず 、 必要 に な っ た と き に 初 
め て ペー ジ 単 位 で コピ ー し ます 。 こ 
れ に より 、fork0 時 に は メモ リー を 
コピ ー せ ず に 済む の で 、fork( を 素 


青き 込み が 発生 し た ら 、 
メモ リー を コピ ー し て 分 離 


(3) 親 プ ロ セ ス が 書き 込み 。 
Copy-On-Write で 複製 され る 


(1) ダイ レク ト !/O 


read() を 発行 し た 釘 プ ロ セ 
ス で は な く 、 子 プロ セス に 
デー タ が 転送 され て し まう 


図 3 ダイ レク ト I/O の 最 中 に Copy-On-Write が 起こ っ た ケー ス 


早く 実行 で きる わけ で す 


ダイ レク ト I/0 と Copy-On-Write 
さて 、 前 述 し た よう に ダイ レク ト 
1/O で は 、 物 理 アドレス を 転送 先 と 
し て デー タ 転 送 を 行い ます 。 も し ダ 
イレ クト 1/O の 最 中 に 、Copy-On- 
Write が 起こ る と どう な る で し ょ う 
か 。 例 えば 、 次 の 順序 で イベ ント が 
発生 し た と し ます ( 図 3) 


(1) プロ セス が ダイ レク ト I/0 の 
read を 発行 。 そ れ を 受け 、 カー 
ネル が ブロ ッ ク デ バイ ス 層 に 対 
し て デー タ 転 送 の 実施 を 依頼 

(2) プロ セス が fork() を 発行 

(3) 親 プロ セス が 何ら か の 理由 で 
(1) で read を 出し て いた バッ 
ファ ー と 同じ ペー ジ に 書き 込 
み を 実施 。 そ れ に 伴い 、Copy- 
On-Write で メモ リー が コピ ー さ 
れる 

(4) デー タ 転 送 が 完了 


(3) に お いて 親 プ ロモ ス が 書き 込 
み を 実施 し た こと に より 、 新た な ペ 


ー ジ が 割り 当て られ ます 。 つ まり 、 
(1) で read) の デー タ 転 送 先 に な っ 
て いた ペー ジ と は 、 物 理 ア ドレ ス が 
異な る ペー ジ が (3) に お いて 親 プ 
ロモ ス に 割り 当て らち れる わけ で す 。 
(1) で 生じ た デー タ 転 送 は 古い ペー 
ジ に 対し て 行わ れる の で 、 子 プ ロモ 
ス 側 の バッ ファ ー に デー タ が 転送 さ 
れ ま す 。 親 プロ モス は read0 が 終わ 
っ た と 思っ て パッ ファ ー を 見 に 行っ 
て も 、 正 し い デ ー タ が 転送 され て い 
な いわ け で す 

つま り 、 ダ イレ クト I/O を し て い 
る プロ セ モス が fork0 を する 場合 に は 、 
デー タ の 整合 性 が 保証 され な く な り 
ます 。 実際 に は 、 タ イミ ング の 関係 
で こう し た こと は あま り 起 こら な い 
か も し れ ま せん が 、fork() と ダイ レ 
クト 1/O の 同時 使用 に は 細心 の 注意 
が 必要 に な る の で 、 お 勧め で きま せ 
ん 。 ダ イレ クト I/O で な けれ ば この 
よう な 問題 は 発生 し ませ ん 。 プ ロモ 
ス の 論理 アド レス を 利用 し て デー タ 
が コピ ー さ れる の で 、 親 プ ロ セ ス の 
新 パ ッ フ ァ ー に 正しく 読み 込ま れる 
か ら で す 


付録 カニ ネル バッカー ニ が 


8 も る 


これ まで 何 度 か 触れ た よう に 、 ユ 
ー ザ ー プ ログ ラム (プロ セス ) が 利 
用 する 仮想 アド レス 域 に 割り 当て ら 
れ た 物理 メモ リー を 「anonymous 
memory」 (無名 の メモ リー) と 呼 
び ま す 。anonymous memory の 割 
り 当 て に 関し て 、 カ ー ネ ル 内 で は 物 
理 メ モリ ー の 確保 や 、 仮想 アド レス 
と 物理 え モ リー の マッ ピン ダグ 情 報 の 
作成 が 行わ れ ま す 。 な お 、 作成 し た 
マッ ピン グ 情 報 は ペー ジテ ー プ ル に 
収め られ ます 

と ころ で 、 に マッ ピン 
グ 情 報 が ずっ と 固定 され た 状態 に あ 
り 続 ける と は 限り ませ ん 。 最 初 の マ 
ッ ピ ング 情報 を 破棄 し て 、 仮 想 ア 
ドレ ス と 物理 アド レス の 関係 を 再 構 


築 す る こと も あり ます 。 ど うい う 場 
合 か と いう と 、 主 に 次 の 2 つが あり 
ます 


① メ モリ ー を スワ ッ プ に 送る 
② ペ ー ジ を 移動 する (割り 当て た 物 
理 メ モリ ー の 変更 ) 


メモ リー を スワ ッ プ に 送る と は 、 


通常 の エン トリ ー 


「 


スワ ッ プ エン トリ ー 


Swap 


35 スワ 


ペー ジ の 物理 位置 情報 


Present Bit 三 1 の 場合 は 、 CPU アー キテ クチ ャ ー 
ご と に 決め られ た 記法 に 従う (特に x86 の 場合 ) 


ッ プ の 位置 


OS の メモ リー 不足 を 解消 する 狙い 
か ら 、 最近 使用 きれ て いな い メ モリ 
ー を 回 収 す る こと で す 。 一 方 、 ペー 
ジ を 移動 する の は 次 の 2 つの 理由 か 


らち で す 


・ 連 続 メ モリ ー を 作る 

メモ リー は 基本 的 に ペー ジ 単 位 で 
扱わ れ ま す が 、 処理 に よっ て は どう 
し て も 連続 し た ペー ジ (アド レス ) 
の 物理 メモ リー が 必要 に な る こと が 
あり ます 。 そ うし た 場合 に は メモ リ 
ー の 中 身 を 移動 し て 整理 し 、 連 続 し 
た メモ リー 域 を 作り 出し ます 


・ メ モリ ー を CPU の 近く に 置く 
CPU ソケット が 2 つ 以 上 ある x86 
機 な ど は 、 各 CPU の 下 に メモ リー 
(DIMM) が ぶら 下がる 構造 に な っ 
て いま す 。 そう し た 構造 だ と 各 CPU 
か ら 特 定 の メモ リー まで の 距離 が 
- 定 に な ら ず 、 ア クセ ス 速 度 に 差 
が 生じ ます 。 こ の よう な アー キテ 


クチ ャ ー を NUMA (Non Unilorm 
ed Memory Architecture) と 呼び 
ます 


NUMA で は プロ セス の CPU 


Present Bit 三 0 の 場合 は 、 上 位 63 ビ ッ ト を OS が 好き 勝手 に 使え る 。 
Linux で は 5 ビッ ト の Swap Type と スワ ッ プ の 位置 情報 を 入れ る 


図 1 ペー ジテ ー ブ ル の エン トリ ー 


Present Bt = ニ 0 


教え る Linux メモ リー 技術 


ー マ イ グレ ー シ 


ョ ン 


と メモ リー を 近く に 配置 する こと に 
よっ て 、 性 能 が 高まり ます 。 つ まり 
NUMA で は 、 メ モリ ー の 中 身 を 移 
動 し 、CPU と メモ リー を 最適 に 配置 
する こと が 重要 な の で す . 

ここ で は この マッ ピン グ 情 報 、 つ 
まり ペー ジテ ー プ ブル の 取り 扱い に つ 
いて 見 て いき ます 


ペー ジテ ー ブ ル の エン トリ ー 

ペー ジテ ー プ ブル の 各 エ ント リー 
に は 、 各 種 情報 が 収め られ て いま 
す 。 エ ント リー の 一 つ ひ と つ は 図 1 
の よう に な っ て いま す 。 ペ ー ジ が 存 
在 す る か どう か を 示す ビッ ト (Pres 
ent Bit) や 、 ペ ー ジ の マッ ピン グ 
属性 を 示す 数 ビッ ト の 情報 、 ペ ー 
ジ の 物理 アド レス を 示す 数 値 が 入り 
ます (CPU に よっ て 多少 の 差 が あり 
ます ) 

64 ビ ッ ト ア ー キ テク チャ ー の 場 
合 、 物 理 ア ドレ ス は 64 ビ ッ ト で す 
ペー ジ の サイ ズ は 4K バ イト 単位 な 
の で 、 マ ッ ピ ング 情報 も 4K バ イト 
単位 に な り ま す 。 エ ント リー の 下位 
12 ビ ッ ト を ペー ジ の 情報 に 、 上 位 
52 ビ ピット を ペー ジ の 位置 情報 に 使 
用 し ます 

「Present Bit = 1| の 場合 は ペー 
ジ が 存在 する の で 、CPU アー キテ ク 
チャ ー ご と に 決め られ た フォ ー マ ッ 
ト で 、 ページ の 物理 アド レス と 属性 
情報 を 記載 し ます 。 一 方 、「Present 
Bit = 0] は 、 ペ ー ジ が 存在 し な い 
こと を 意味 し ます 。 そ の 場合 は 残り 
の 63 ビ ッ ト を 自由 に 使っ て よい こ 
と に な っ て いま す 。 

スワ ッ プ 情報 を 志す スワ ッ プ エン 
トリ ー で は 、「Present Bit = 0] と 
な り 、 残 り の 63 ビ ピット に スワ ッ プ タ 


イプ と スワ ッ プ 位置 の 情報 を 書き 込 

' で いま す 。 た だ し 、 こ れ は CPU ア 
ー キ テク チャ ー に よっ て 規定 され て 
いる フォ ー マ ッ ト と いう わけ で は あ 
り ま せん 。 繰り返し に な り ま す が 、 
「Present Bit = 0] の と き は 、OS の 
都合 で どん な 書き 方 を し て も 構わ な 
い の で す 。Linux で は 現在 、5 ビ ッ 
ト を スワ ッ プ タイ プ に 、58 ビ ッ ト を 
スワ ッ プ 位置 情報 に 使っ て いま す 。 
また 、 全 ビッ ト が 0 の 場合 は 無効 な 
エン トリ ー と し て 扱い ます 

スワ ッ プ タイ プ は 元々 、 ス ワッ プ 
デパ イス の 番号 を 格納 する た め の も 
の で し た 。 し か し 、32 個 (=5 ビ ッ 
ト ) も スワ ッ プ デバ イス を 付け る 人 
な どい な いこ と か ら 、 い くつ か 拡張 
され た 使い 方 に 利用 きれ る よう に な 
っ て いま す 。 

その 拡張 きれ た 利用 方 法 の 1 つ 
が 、 メ モリ ー の 移動 、 つ まり ペー ジ 
マイ グレ ーション で す 


ペー ジマ イグ レー ショ ン の 流れ 
ペー ジマ イグ レー ショ ン で は 、 メ 
モリ ー の 内 容 を ペー ジ 単 位 に 、 別 の 
メモ リー に 移動 きせ ます 。 そ の 際 、 
スワ ッ プ エン トリ ー の スワ ッ プ タイ 
プ を 拡張 し た 特殊 な エン トリ ー ( マ 
イグ レー ショ ン エ ント リー) を 使い 


ます ( 図 2)。 
ペー ジマ イグ レー ショ ン 処 理 で 
は 、 まず ペー ジテ ー プ ル エ ント リー 


を マイ グレ ーション エン 
き 換 えま す 。 こ うす る と 


トリ ー に 置 


「Present 


Bit = 0] な の で 、 CPU は 仮想 アド 
レス に 対応 する 物理 メモ リー が 無い 
と 判断 し ます 。 

この 状態 で ユー ザー プロ セス が 仮 
想 ア ドレ ス に アク モス する と 、 対 応 


マイ グレ ーション エン トリ ー 


元 の 物理 メモ リー の 位置 


代わ り に 元 べ : 


SwapType の 代わ り に Migratlon TVpe、 ス ワッ プ 情 報 の 
ジ の 情報 を 入れ る 


図 2 メモ リー マイ グレ ーション で 用 いる 特殊 を エン トリ ー 


ブル の エン トリ ー を 


ルー ショ ン エ ント リー に 
青き 換え 


新しい ペー ジ を 示す 
ペー ジテ ー ブ ル エン トリ ー に 
青き 換え 


図 3 ペー ジマ イグ レー ショ ン の ステ ッ プ 


する 物理 メモ リー が 無い の で 「 ペ ー 
ジフ ォ ル ト 」 と いう 例外 処理 が 発生 
し ます 。 ユ ー ザ ー の 処理 は 、 カ ー ネ 
ル が ペー ジマ イグ レー ショ ン を 終え 
る まで 待た され ます 

ユー ザー の 処理 を 止め て いる 間 
に 、 カ ー ネ ル は 別 の ペー ジ に メモ リ 
ー の 内 容 を コピ ー し ます ( 図 3)。 そ 
の 後 、 新しい ペー ジ の 情報 を ペー ジ 
テー ブル に 書き 込む こと で 、 仮想 ア 
ドレ ス と 物理 アド レス の マッ ピン グ 
を 変更 する わけ で す 。 最終 的 に 「Pre 
sent Bit = 1| に 戻し て ユー ザー か 
らち の アク モス を 可能 に する こと で 、 
メモ リー の 移動 が 完了 し ます 。 


マイ グレ ーション を 利用 し た デフ ラグ 

カー ネル や ドラ イ バ か ら 、 連続 し 
た 物理 ペー ジ を 獲得 し た いと いう 要 
求 が 来る こと が あり ます 。 こ の よう 


CPU か ら 元 ペー ジ が 見 えな く な る の 
で 、 ユ ー ザ ー プ ロ セ ス が アク セス する 
と Page Fault が 起こ る 


ユー ザー プロ セス が ペ : 


安心 し て コ 


マッ ピン グ を 更新 し 、 ユ ー ザ ー | 
プロ セス か ら の アク セス を H 
可能 に する 


な 場合 、 昔 の Linux で は 連続 域 が 生 
まれ る よう に 強制 的 に メモ リー を ス 
ワッ プア ウト させ て いま し た 。 

現在 で は ペー ジマ イグ レー ショ ン 
を 利用 し た メモ リー の デフ ラダ 機能 
が 搭載 され て お り 、 以 前 と 比べ て メ 
モリ ー が スワ ッ プ アウ ト さ せら れる 
確率 が 大 きく 下がっ て いま す 。 ま た 、 
スワ ッ プ を 持た な い シ ステ ム の 安定 
性 も 大 きく 向上 し て いま す 

No.7 で 紹介 し た HugeTLB の 利用 
に お いて も 、2M バ イト の 連続 メモ 
リー が 必要 で す 。 自 動 デ フラ ダ 機 能 
が 実装 され た お か げ で 使え る 機能 と 
いえ ます 。 

ペー ジマ イグ レー ショ ン は NU 
MA の メモ リー 配置 を 自動 的 に 最適 
化し て 性 能 を 向上 ミ せ る と いっ た 機 
能 を 含め 、 さ ま ざ ま な 場面 で 利用 き 
れる こと で し ょ う 。 


付 録 


0 こく 
能 を 考え る と き 、 は 
に CPU と デー タ の 間 の 距離 が あ 
ます 。 こ こ で いう 距離 と は 、 ア クモ 
ス に る 時 間 に 基づく も の で す 
距離 が 近けれ ば 、CPU は デー タ に 
高速 に アク セス で きま す 。 ま た 、 距 
離 が 吉 け れ ば アク モス が 遅く な り ま 
す 。 例え ば 、 デ ー タ が CPU キャ ッ 
シュ に 載っ て いれ ば “近く " なり ま 
す 。 逆 に 、 低速 な タモ リー に アク モ 
ス し な けれ ば な ら な い 場 合 は “遠い " 
と 表現 し ます 。 こ の よう な 考え 方 を 
メモ リー 階層 と 呼び ます ( 図 1) 

デー タ を CPU に 近い 所 に 置け ば 、 
プロ グラ ム が より 高速 化し ます 。 デ 
ー タ の 物理 的 配置 や アク セス パタ 
ー ン の 工 2 性 能 向上 を 図る 上 で 
重要 な の で す で は CPU と デ 
て いき 


ハー ドウ エア の メモ リー 階層 と い 
> ら 見 る と 、 現在 よく 使用 さ 
れる x86 サ ー バ ー は SMP (Symmetr 
ic Memory Processing) と NUMA 
(Non Uniformed Memory Archite 
cture) と いう 2 種類 の アー キテ クチ 


メモ リー 


HDD や ネッ トワ ー ク 
遠い 


図 1 メモ リー の 階層 


ャ ー に 分 類 で きま す ( 図 2)。 

SMP は 、 メ モリ ー へ の 距離 が ど 
の CPU か ら で も 常に 一 
ー キ テク チャ ー で す . 
リー の 位置 関係 が 性 能 に 影響 し な 
い の で 、 プ ログ ラマ ー が 人 性 能 を 引き 
出し や すい アー キテ クチ ャ ー で ある 
と 言え ます 。 最 近 の x86 サ ー バ パー で 
は 、1 ソ ケッ ト の モデ ル が これ に 当 
た り ま す 

- 方 、NUMA は CPU か ら メ モリ 

ー へ の 距離 に 差 が ある アー キテ クチ 

ー で す 。 NUMA に お いて は 、CPU 
と メモ リー の 位置 関係 が 性 能 に 影 
響 す る の で 、 プ ログ ラマ ー は (OS 
の アシ スト を 受け つつ ) 配置 を 考え 
る 必要 が あり ます 。x86 サー バー の 
複数 ウツ ケット 機 の 場合 、CPU ソ ケッ 
ト 単位 の SMP を つなげ た 構造 に な 
り ま す 


NUMA 対 応 の メモ リー アロ ケー タ 
NUMA 構 成 の 場合 、OS は ファ 
ー ム ウエ ア が 提示 する 、CPU と メ 
モリ ー の 距離 に 関す る 情報 を 基 に 、 
近く に ある デバ イス 同士 を 一 つの グ 
ルー プ に まとめ ます 。 こ の グル ー プ 


シン グ . は 、 
全 CPU か ら メ モ リー まで の 距離 が 均一 


図 2 SMP と NUMA 


カー ネル ハッ カー が 教え る Linux メモ リー 技術 


と メモ リー 管理 


を 「 ノ ー ド ] (NUMA Node) と 呼 
び ま す 


各 ノ ー ド に は 、CPU と メモ リー が 
所 属し ます (特殊 な マシ ン の 場合 に 
は 、 ノ ー ド に CPU や メモ リー が 存 


在 し な いこ と も あり ます )。 CPU か 
ら 見 る と 、 所 属 ノ ー ド 内 の メモ リー 
番 近く 、 最 高 の アク セス 


Linux に お いて は 、 
ケー ター が メモ リー を ノー 
分 割 管理 し ます 。CPU ス 

ー も ノー ド を 意識 し て 階層 構造 
に な っ て いま す 。 基本 的 に 、 ス レッ 
ド に は その スレ ッ ド が 動作 し て いる 
AM) ノー ド 内 の メモ リー を 
割り 当て ます 

例え ば 、NUMA マ シン が 2 スロ 
ッ ト を 備え 、 シ ステ ム に 「 ノ ー ド 0] 
と 「 ノ ー ド 1」 が ある と し ます 。 ノ 
ド 0 の CPU で 動作 する スレ ッ ド 
は 、 ノ ー ド 0 か ら メ モリ ー を 獲得 し 
よう と し ます 。 こ の リク エス ト が 成 
功 す る と 、 ス レッ ド が 動作 する CPU 
と 同じ ノー ド か ら メ モリ ー を 獲得 で 
きま す 。 し か し 、 ノ ー ド 0 に 空い た 
メモ リー が 存在 し な い 場合 は 、 リ ク 


CPU ソケット 単位 の SMP が 
複数 つなが っ た 形 に な り 、 
CPU と メモ リー 間 の 距離 が 均一 で な く な る 


エス ト が 和 失敗 し ます 。 失敗 し た 場合 
は 、 ノ ー ド 1 に 所 属す る メモ リー か 
ら 獲 得 し よう と し ます 。 ノ ー ド が 多 
数 ある 場合 は 、 フ ァ ー ム ウエ ア の 情 
報 に 従っ て 近い 順に 、 他 ノー ド の メ 
モリ ー 獲 得 を 試み ます 。 

き て 、CPU と 同じ ノー ド (一 番 近 
い ノ ー ド ) か ら メ モリ ー を 獲得 で き 
な いと 、 性 能 が 落ち て し まい ます 
そこ で Linux で は 、CPU と 同じ ノ 
ー ド か ら メ モリ ー を 獲得 で きる 状況 
を 作る こと を 狙っ て 、 メ モリ ー 回 収 
(reclaim) 処理 も ノー ド 単 位 で 動作 
させ て いま す 。 例 えば 、 メモ リ 
ー が 少 い と き に ペー ジア テア ウト を 実施 
する カー ネル スレ ッ ド の kswapd な 
ども 、 ノ ー ド 単位 で 動作 し ます 


NUMA に お ける メモ ! 

kswapd が ノー ド 単 
こと か ら 、 運用 に 少し 注意 が 必要 に 
な り ま す 。 例 えば 、 ノ ー ド が 2 つ あ 
る シス テム に お いて 、 メ モリ ー が ノ 
ー ド 0 と ノー ド 1 の それ ぞ れ に 4G バ 
イト ずつ 搭載 され て いる と し ます 
この と き 、5G パ イト の メモ リー を 
利用 する アプ リケーション を ノー ド 
0 で 動か す と どう な る で し ょ うか 

カー ネル が 使っ て いる メモ リー 
の こと は 、 ひ と まず 置い て お きま 
し ょ う 。 単純 に 考え て 、 ノ ー ド 0 
か ら 4G バ イト を 獲得 し 、 ノ ー ド 1 
か ら 残 り の 1G パ イト を 取得 する は 
ず で す 。 

この と き 、 ノ ー ド 0 で は 空き メモ 
リー が 無く な る の で 、「kswapd に よ 
る メモ リー 回 収 ] が 発生 し ます 。 結 
果 と し て 、 シ ステ ム 全 体 で は 空き メ 
モリ ー が 3G バ イト ある の に 、 ア プ 
リケーション の メモ リー が スワ ッ プ 


メモ リー 配置 を 調整 し な い 場合 
3G バ イト の 
4G バ イト 割り 当て 空き メモ リー 
1G バ イト 割り 当て 
フード 0 フー ド 1 
イン タリ ー ブ に より 調整 する 場合 


1.5G バ イト の 
空き メモ リー 


1.5G バ イト の 
空き メモ リー 


25G バ イト 割り 当て 


ノー ド 1 


2.5G バ イト 割り 当て 


ノー ド o 
図 3 メモ リー 配置 を 調整 し な い 場合 (上 ) と イン タリ ー ブ に より 調整 する 場合 ( 下 ) 


に 追い 出さ れ ま す ( 図 3 の 上 ) 

極端 な 場合 に は 、 ア プリ ケー シ 
ョ ン が スワ ッ プ アウ ト き され た メモ リ 
ー に アク セ モス する た びに 、 そ れ に 
必要 な メモ リー を ノー ド 0 か ら 割 り 
当て る こと に 伴っ て 別 の メモ リー 
を 追い 出す 、 と いう 性能 低下 を 引き 
こす 処理 が 繰り 返さ れる こと に な り 
ます 


メモ リー を 複数 ノー ド に 分 ける 

こう し た 状況 は 、 好ま し いも の で 
は あり ませ ん 。 解 決 策 と し て 、 次 の 
2 つの 方 法 が 考え られ ます 。 い ずれ 
も ノー ド 0 と ノー ド 1 に メモ リー の 
割り 当て を 分 ける こと で 、 無駄 な ス 
ワッ プア ウト を 部 け る も の で す . 

1 つ は アプ リケーション を 見 直し 
て で 、 メ モリ ー 配 置 を 指定 する 手法 で 
す 。 プ ログ ラム 側 で ノー ド へ の 配置 
を 操作 し 、 頻繁 に アク モス する デー 
タ を ノー ド 0 に 、 あ まり アク セス レ 
な い デ ー タ を ノー ド 1 に 割り 当て ま 
す 。 う まく 配置 で きれ ば 最高 の 性 能 
が 出 ま す 。 た だ し 、 プロ グラ ム 開 発 


に 手間 が 掛か り 、 ま た NUMA の 構 
成 に よっ て 配置 を 変え る な どの 工夫 


NUMA シ ステ ム で アプ リケーション を 動 
作 さ せ た と き に メモ リー 配置 が 偏る と 、ks 
wapd が 動作 し て スワ ッ プ が 発生 する 可能 
性 が ある 


例え ば イン タリ ー ブ す る な ど し て メモ リ 
ー 配 置 を 調整 する と 、 両 ノー ド の メモ リ 
ー に 余裕 が 生ま れる 


が 必要 に な り ま す 
も う 1 つ は 、 メ モリ ー の 割り 当て 


を 強制 的 に ノー ド 0、 ノ ー ド 1 と 交 
互 に 割り 振る こと で 、 メ モリ ー の ア 


クモ ス 速 度 を 平均 化す る 方 法 で す 。 
この よう な 手法 を 「 イ ンタ リー プ ] 
と 呼び ます ( 図 3 の 下 )。 CPU の 位 
置 に か か わら ず 、 平 均 的 に 性 能 を 出 
すこ と が で きま す 。 イ ンタ リー プ は 、 
デー タベース な どの デー タ 配 置 を 予 
測 し に くい アプ リケーション で も 有 
効 と きれ て いま す 

これ ら 配 置 の 指定 に は 、numacll 
と いう コマ ンド や 、 mempolicy と い 
う シ ステ ムコ ー ル を 使用 で きま す 。 

現状 で は 、CPU と メモ リー の 位 
置 を 人 手 で 設定 する こと が 多い と 思 
いま す 。 こ れ に は 手間 が か か る の 
で 、Linux で は カー ネル や デー モン 
(numad) な ど に よっ て 、 自 動 的 に 
配置 を 調整 する 取り 組み を 進め て い 
ます 。 これ ら の 自動 化 処理 で は CPU 
の 配置 と No8 で 紹介 し た スモ リー 
マイ グレ ーション を 組み 合わ せ 、 シ 
ステ ム の 稼働 状況 に 合わ せ て 動 的 
に 最適 な メモ リー 配置 に な る よう に 
し て いま す 。 


- 付 録 カー ネル ハッ カー が 教え る Linux メ モリ ニー 技術 


No.9 で は 、CPU と メモ リー 間 の 


MA」 (Non Uniformed Me 
mory Architecture) を 取り 上 げ 
まし た 。 そ し て 、NUMA で は ア 
プリ ケー ショ ン が 使用 する CPU と メ 
モリ ー が 近く に 存在 し な いと 性能 が 
出 な いこ と や 、 ノ ー ド ご と に メモ リ 
ー 管 理 を 行う の で 場合 に よっ て は 配 
慢 が 偏っ て 無駄 な スワ ッ プ アウ ト が 
発生 する こと な ど に つい て 説明 し ま 
し た 

ここ で は 、NUMA を 使い こなす 
な Linux の 機能 で ある 「cp 
uset| と 、cpuset を 使う NUMA 配 
置 の 自動 調整 デー モン で ある 「num 
ad] に フォ ー カ ス し ます 


CPU や メモ リー 配置 を 操作 する 
cpuset は 、CPU や メモ リー、 ネ 
ットワーク な どの リソー ス を グル ー 
プ 単 位 に 割り 当て た り 、 制 限 を か け 
た り で きる 「cgroup」 の 機能 の 1 つ 
で す 。 プ ロモ ス に 割り 当て た CPU や 


表 1 cpuset の 主 を コント ロー ルフ ァイル 


4 績 cpPuset と numad 


メモ リー の 配置 を ユー ザー が 外部 か 
ら 操作 で きる API を 備え て いま す 

cpuset は 、 フ ァイル シス テム と し 
て マウ ント し て 使用 し ます 。cpuset 
を 用 いて 配置 を 操作 する 際 は 、 コ ン 
トロ ー ル ファ イル と 呼ば れる ファ イ 
ル に 書き 込み ます ( 表 1) 

な お 、cpuset は 例え ば systemd 採 
用 以前 の Fedora 19 で は 、「/sys/fs/ 
cgrouD/cDuset| に マウ ント され て 
いま す 

ある プロ モス の CPU や メモ リー 
の 配置 を 操作 する と し まし ょ う 。 そ 
れ に は 、 ま ず cpuset の 操作 用 ディ 
レク トリ ー を 作り ます 。 例 えば 、「/ 
SYS/fS/cgrouD/cDuset/Group_A」 


と いう ディ レク トリ ー を 作っ た と し 
ます ( 図 1 の W)。 デ ィ レ クト リー 


内 に 、 各種 コン トロ ー ル ファ イル が 
自動 的 に 作成 され ます 

この うち 「cgroupprocs] と いう 
ファ イル に 、 操作 し た い プ ロ セ ス の 
プロ セス ID を 書き 込み ます *! ( 図 
16) 


Cgroup.tasks 
CgrouP.PrOCS 
CPuset.CPUS 

cpuset mems 
cpuset.memory_migrate 


所 属し て いる スレ ッ ド 一 覧 

所 属し て いる プロ セス 一 覧 

利用 可能 な CPU の リス ト 

メモ リー を 利用 可能 な ノー ド ID の リス ト 

mems ファ イル に 変更 が あっ た 場合 、 メ モリ ー を 移動 させ る 


cpusetmemory_spread_page 値 が 「1] だ と ファ イル キャ ッシュ を 指定 ノー ド で イン タリ ー ブ す る 


⑥| % mkdir /sys/fs/cgroup/cpuset/Group_A/ 品 


@| * echo PID > /sys/fs/cgroup/cpuset/Group_A/cgroup.procs ロ 


O | * echo 1 > /sys/fs/cgroup/cpuset/Group_A/cpuset memory_migrate ロ 


図 1 プロ セス の CPU を 4… 7 番 、 メ モリ ー を NUMA ノ ー ド の 0 1 番 か ら 割 り 当 て る 


ディ レク トリ ー に ある 「cpusetcp 
us」「cpuseLmems」 と いう コン トロ 
ー ル ファ イル に 値 を 指定 する と 、 そ 
れ ぞ れ CPU、 メ モリ ー リ ソー ス の 割 
り 当 て を 今後 は どの ノー ド か ら 得 る 
か 設定 こ な り ます 。 例 えば 、 
CPU を 4-7 番 、 メ モリ ー を NUMA 
ノー ド の 0 一 1 番 か ら 割 り 当 て た い 
場合 は 図 1 の @ の よう に 値 を 設定 し 
ます 

メモ リー の 指定 に は 、 少し ば か り 
注意 が 必要 で す 。 値 を 書き 込ん で 指 
定 を 変更 し て も 、 その 効果 は 新た に 
割り 当て を 受け る メモ リー に 対し て 
の み 発 揮 き され 、 既に 使用 し て いる メ 
モリ ー が 指定 し た ノー ド に 移っ て く 
る わけ で は あり ませ ん 

使用 中 の メモ リー を 指定 ノー ド 
に 移動 きせ る に は 、「cpuseLmemo 
ry_migrate] に 「1| を 設定 し て お 
きま す ( 図 1 の ⑩)。 こ れ に より 、cp 
setmems フ ァイル に 値 を 書き 込ん 
応じ て (No8 で 説明 
し た ) メモ リー マイ グレ ーション が 
発生 し 、 使用 中 の メモ リー が すべ て 
指定 ノー ド に 移動 きれ ます 

この cpuset を 利用 し て メモ リー 
配置 を 自動 調整 する サー ビス が 、 次 
に 納 介 する 「numad] で す 


CPU や メモ リー の 配置 を 自動 調整 
numad は 、 プ ロモ ス の CPU や メ 
モリ ー を 必要 に 応じ て 適切 に 


し 直し て くれ る デー モン で す 。 Fe 
dora で は パー ジョ ン 17 か ら 利用 可 
で す 
numad デー モン は 一 定時 間 ご と 
(15 秒 ご と ) に シス テム を スキ ャ ン 
し 、 次 の 2 種類 の シス テム 情報 を 入 
手 し ます 


# cat /proc/stat ロ 
cpu 11105906 0 78639 (3359578423) 24607 151679 322319 0 0 0 


cpu0 190540 0 1071 39 7538 234039000 
cpu1 124519 0 50 0 1443 6267 000 
cpu2 143133 0 452 36 1573 834000 


図 2 /proc/stat フ ァイル の 例 


CPUn 柚 (n は 正 数 ) の 4 番目 の フィ ー ル ド に 、 通 算 ア イド ル 時 間 が 示さ れる 。 


#cat /sys/devfces/system/node/node0/memfnfo 器 


Node 0 MemTota]: 4193848 kB 
Node 0 MemFree: 157432 kB 
Node 0 MemUsed: 4036416 kB 
Node 0 Act1ve: 1729240 kB 
Node 0 Inactfve: 1848036 kB 


(以下 、 省 略 ) 


図 3 /sys/devices/system/node/node<N>/meminfo フ ァイル の 例 
「MemTotall が ノー ド の 総 メ モリ ー 量 、[MemFree」 が 未 使用 の メモ リー 量 。 


#cat /proc/se1f/numa_maps ロ 


00400000 prefer:0 f11e=/usr/bin/cat mapped=9 NO=9 
0060b000 prefer:0 f1le=/usr/bin/cat anon=1 dirty=1 NO=1 
0060c000 prefer:0 file</usr/b1n/cat anon=1 dirty=1 NO=1 


020be000 prefer:0 heap anon=3 dirty=3 act1ve=0 NO<3 

36dd600000 prefer:0 file</usr/11b64/1d-2.17.so mapped<28 mapmax_6 [N0=28] 
36dd820000 prefer:0 filez/usr/11b64/1d-2.17.so anon<1 dirty=1 NO=1 
36dd821000 prefer:0 f1le</usr/11b64/1d-2.17.so anon・1 dfrty=1 NO-1 


図 5 /proc/ プ ロ セ ス ID/numa_maps フ ァイル で メモ リー の ノー ド 配 置 を 参照 で きる 


(A) ノー ド ご と の CPU アイ ドル 率 
(B) ノー ド ご と の 空き メモ リー 情報 


(A) の 情報 は 、/proc/stat フ ァ イ 
ル か ら 取 得 し ます ( 図 2)。 各 CPU ご 
と の フィ ー ル ド の 4 番目 に 、 シ ステ 
ム 起 動 時 か ら の 通算 アイ ドル 時 間 が 
10 ミ リ 秒 単位 で 表示 きれ ます 。 こ れ 
を 如 り 返し 取得 し 、 前 回 スキ ャ ン 時 
か ら の アイ ドル 時 間 の 差分 を 計算 し 
ます . 

その 結果 を 経過 時 間 で 割る と 、 直 
近 の CPU の アイ ドル 率 が 求 ま り ま 
す 。 こ の アイ ドル 率 を 仮に 「CPU_FR 
EE」 と 呼ぶ こと に し ます 。 

ま た 、(B) の 情報 は /sys/de 
vices/system/node/nodeN/mem 
info フ ァイル (N は 正 数 ) か ら 入 手 
し ます ( 図 3)。 こ の ファ イル は 、/pr 
oc/meminfo フ ァイル の ノー ド 単 位 

で あり 、MemTotal や MemFree 


と いっ た 情報 が 記載 され て いま す 
この ファ イル か ら 読 み 出 し た Mem 
Free の 値 を 、 仮 に 「MEM_FREE] 
と 呼ぶ こと に し ます 

これ ら の 値 を 掛け 合わ せ た 「CPU 
_FREE] x 「MEM_FREE」 を 、 ノ 
ー ド が 持つ リソー ス の 余裕 を 評価 す 
る 値 と し て 利用 し ます ( 図 4) *? 

また 、 全 プ ロ セ モス を スキ ャ ン し て 
/proc/ プ ロモ ス ID/stat フ ァイル か 
ら 「CPU 使 用 量 ] お よび 「 メ モリ 
ー 使 用 量 」 を 入手 し ます 。 そ し て 、 
これ ら を 掛け 合わ せ た 数 値 で 全 プ ロ 
セス の リス ト を ソー ト し ます 。 リ ス 
ト の 上 位 か ら 順 に 、 各 プ ロモ セス の ノ 
ー ド 配置 を 変更 する か どう か 判定 し 
て で いき ます 。 

判定 で は 、 /proc/ プ ロモ ス ID 
/numa_maps フ ァイル ( 図 5) を 開 
き 、 各 プロ モス が どの ノー ド で どれ だ 
け の メモ リー を 利用 し て いる の か チ 


各 ノ ー ド の 状態 を 確認 


「CPU_FREE] x 「MEM_ 
FREE」 を 指標 と する 


各 プ ロ セ ス の 状態 を 確認 


「CPU 使 用 量 ] X [メモ リー 
使用 量 ] を 指標 と する 


プロ セス の リソー ス が 
大 き な 順 に 再 配置 を 検討 
cpuset を 使っ て 再 配置 


図 4 numad が プロ セス の CPU や メモ リ 
ー を 再 配置 する 流れ 


ェ ッ ク し ます 。 得 られ た (プロ モス 
の ) 各 ノ ー ド で の メモ リー 使用 量 を 
「MEM_FREE」 の 値 に 加味 し 、 


magn1tude 三 CPU_FREEXMEM_FREE 


と いう 式 を 使っ て 各 ノ ー ド の リソー 
ス 空 き 状態 を 評価 し ます 。 この 「mag 
inutude] と いう 値 を 基 に 、 利 用 する 
ノー ド の 優先 度 を 決め て いき ます 

現状 の 利用 ノー ド が 優先 度 の 高い 
ノー ド と は 異な っ て いる 場合 、 プ ロ 
セス の CPU や メモ リー を 再 配置 し ま 
す 。 再 配置 は 、cpusetmemory_mi 
grate に 1 を 設定 し た 上 
cDus フ ァイル に CPU、 ま た cpuset. 
mems に ノー ド の 値 を モッ ト す る こ 
と に よっ て 行い ます 。 プ ロ セ ス を 1 
つ 移 動 し た ら 、 同 じ プ ロ セ ス を 何 度 
も 行っ た り 来 た りさ せな いよ う 最 低 5 
秒 待 っ て か ら 、 次 回 の スキ ャ ン を 行 
いま す 


で 、cpuset. 


* ネ 1 昔 の Linux カ ー ネ ル で は 「tasks」 ファ イ 
ル に プロ セス の 全 スレ ッ ド ID を 書き 込む 必要 
が あり まし た 。 cgroup.procs フ ァイル に プロ セ 
ス ID を 書き 込 と いう の は 、 比 較 的 新しい 操作 
方 法 で す 。 

*2 numad で は 、 リ ソー ス 量 判定 の 材料 と 
し て 基本 的 に 「CPU] X 「 メ モリ ー]」 を 利用 し 
て いま す 。 


付 録 


No.9 と No.10 で は 、CPU と メモ 
リー 問 の 距離 が 非対称 な アー キテ 
クチ ャ ー で ある NUMA (Non Un 
iformed Memory Architecture) 
を 取り 上 げ 、NUMA を うま く チ ュ 
ー ニ ング する 仕組 み の cpuset や nu 
mad に つい て 説明 し まし た 。 手動 
で CPU や メモ リー の 位置 を チュ ー 


ニン グ す れ ば 効果 が それ な り に 大 き 
い の は 確か で す が 、 う まく や る に は 
壮 キル が 必要 に な り ま す 


、 当 然 手 間 も か か り ま す 

^ 語 外部 アプ リケーション で 
CPU や メモ リー を 適切 に 自動 配置 
する こと も 考え られ ます が 、 継続 的 
か つ 詳 細 な 監視 デー タ が 存在 し な い 
の で 、 実 現 は 困難 で す 

2012 一 2013 年 に か け て 、 カ ー ネ 
ル 側 で 自動 的 に アプ リケーション の 
メモ リー アク セス を 追跡 し 、CPU と 
メモ リー の 配置 を チュ ー ニ ング ( バ 
ラン ス ) する 仕組 み が 開 発 さ れ ま し 
た 。 最新 の ディ スト リ ビ ュ ーション 


(Fedora 20 な ど ) で は 、 
よう に な っ て いま す 
ー ネ ル に よる 自動 NUMA パ バランス 
と は どの よう な も の な の か を 紹介 し 
ます 


既に 使え る 


ここ で は 、 カ 


CPU の 移動 と スケ ジュ ー ラ ー 

プロ モス に 実際 に メモ リー が 割り 
当て られ る の は 、 プ ロ セ モス が OS か 
ら 獲 得 し た 仮想 メモ リー に アク モス 
し た 際 で す 。 こ の と き 、OS は プロ 
モス の 人 性能 を 最適 に する た め 、 メモ 
リー アク モス を 実施 し た CPU に 最 
も 近い ノー ド か ら 、 メ モリ ー を 割り 
当て ます 。 こ の 時 点 で は 、OS は プ 
ロモ セス に 最適 な メモ リー を 割り 当て 
た わけ で す 

し か し 、 スケジュ ー ラ ー の 都合 に 
よっ て 、 プ ロモ セ モス が 動 
が 別 の NUMA ノー ド に 変わ る ( 移 
動 す る ) と 、 最 初 に 「 最 適 な | つも 
り で 決め た メモ リー の 位置 が 最適 で 
く な っ て し まい ます 。 従来 の 実 


な っ て 


は な く 


カー ネル ハッ カー が 教え る Linux メモ リー 技術 


装 で は 、 プ ロモ ス が NUMA ノ ー ド 
間 を 移動 する 際 に 、 メ モリ ー の 位置 
は 変わ り ま せん で し た 。 そ の 結果 、 
頻繁 に アク モス され る デー タ の 位置 
が CPU と 境 く 離れ て し まい 、 人 性 能 
が 大 きく 低下 する こと が あり まし た 
( 図 1) 

4 ロス ス ツ の 22 選 ニー ラー は 、 シ 
ステ ム 全 体 を 見 な が ら 空 いて いる 
CPU に プロ モス を 移動 し よう と 、 常 
を 続け て いま す 。 移 動 の 際 、 
現在 の CPU が 属す NUMA ノ ー ド 内 
の 別 の CPU を 優先 する よう 配慮 し 
ます 

し か し 、 あ る NUMA ノ ー ド で は 
CPU が 不足 し て いる 一 方 で 、 他 の 
NUMA ノ ー ド で は CPU が 十分 に 空 
いて いる よう な 場合 に は 、CPU を 別 
の NUMA ノ ー ド に 移動 し て し まい 
ます 。 ス ケ ジ ュ ー ラ ー と メモ リー 配 
冒 処理 が 連動 し て いな いこ と が 原 
因 で 、 性 能面 の 問題 が 生じ る こと が 
ある わけ で す 


ペー ジ が マッ プ さ れ た 状態 マッ ピン グ を は が す 


緒 Na っ 


最初 の ペー ジフ ォ ル 
ト 時 に は 、 メモリー が 
CPU に 近い と ころ に 


確保 され る 
ププ: アク セス 
プア 22 

時 間 経 過 ト が 発生 

スケ ジュ ー ラ ー の 都 

合 で CPU が 変わ る と 、 

CPU と メモ リー が 遠 

= 再 割り 当て し な が ら 
く な る こと が ある 統計 情報 を 収集 


スケ ジュ ー ラ ー が 利 
用 する ヒン ト 情 報 


図 1 スケ ジュ ー ラ ー の 都合 で プロ セス の CPU が 移動 
図 2 メモ リー マッ ピン グ を 一 時 的 に 引き は が す 


メモ リー の 位置 は 変わ ら な い の で 、CPU と メモ リー が 蛋 く な る こと が ある 。 


カー ネル に よる NUMA 自動 バラ 
ンス で は 、 メ モリ ー マ イ グレ ー シ ョ 
ン (No8 で 解説 ) を 利用 し て 、 自 動 
的 に CPU の 位置 と メモ リー の 位置 
を 調整 し ます 。 カ ー ネ ル の スケ ジュ 
ー ラ ー に 、 プ ロ セ モス と メモ リー の 位 
置 を 追跡 し 、 必要 に 応じ て メモ リー 
を 移動 し た り 、( プ ロ セ モス が スケ ジ 
ュー ル さ れる べき NUMA ノ ー ド を 
覚え て お いて ) チャ ンス が あれ ば 元 
の 位置 に プロ モス を 戻し た りす る 機 
能 が 付加 きれ まし た 

な お 、NUMA 自 動 バ パラ ンス は 普 
通 に 起動 する と 有効 化 さ きれ て いて い 
ます 。 こ れ を 無効 化す る に は 、 プー 
ト オ プ ショ ン に 「numa_balancing 
=disable」 を 指定 し ます 


アク セス 時 の メモ リー 移動 

プロ セス に メモ リー ペー ジ が 割り 
当て られ た 際 、 ペー ジ の 位置 が プロ 
セス の ベー ジテ ー ブ ル に 登録 され ま 
す 。No8 で 説明 し た よう に 、 メ モリ 
ー マ イ グレ ーション は この ペー ジテ 


ー ブ プル を うま く 使 っ て 実装 され て い 
ます 。 メ モリ ー ア クセ モス の 追跡 に お 
いて も 、 ペ ー ジ テー ブル を うま く 使 
いま す 


numa_balancing が 有効 の 場合 
は 、 一 定時 間 ご と に プロ モス の メモ 
リー を スキ ャ ン し て 、 メ モリ ー マ ッ 
ピン グ を 一 時 的 に 引き は が す 処 理 が 
行わ れ ま す 誠 加 の 必 き ぎ ペ 
ー ジ マイ グレ ーション の 場合 と 同じ 
よう に ペー ジテ ー プ ブル の 「Present 
Ms を [OSIRE ペ ニ ジ テ ーー 
に は 「NUMA 情 報 収集 の た め に 、 
一 時 的 に ペー ジ を 外し た 」 こ と を 記 
録 し て お きま す 。 こ うし て お く と 、 
プロ セス が メモ リー を アク モス し た 


表 1 CPPIG 当 で 8 る numa_balancing の 統計 値 


際 に Page Fault と いう 例外 処理 が 
発生 し 、OS が メモ リー アク セス を 
捕捉 で きま す 。 Page Fault が 起こ る 
と 、 カー ネル は プロ セス が 現在 動作 
し て いる CPU と 引き は が し た ペー 
ジ の 位置 (NUMA ノ ー ド ) を 比較 


し 、 そ れ ら が 異な る NUMA ノ ー ド 
に 置か れ て いる 場合 に は ペー ジマ イ 
グレ ーション を 発生 きせ て 、 メ モリ 
ー を CPU の ある NUMA ノ ー ド に 移 
動き せま す 

プロ セス の アク セス 追跡 


この よう に し て 、 プ ロモ ス が 動作 
する CPU の 位置 に 合わ せ て メモ リ 
ー を 移動 さき せま す 。 た だ し 、 メ モリ 
ー マ イ グレ ーション に は オー バー へ 
ッ ド が ある の で 、 頻繁 に ペー ジマ イ 
グレ ーション を 行う わけ に は いき ま 
せん 

そこ で 、 カ ー ネ ル は 上 記 の 処理 の 
延長 で 、 ど の NUMA ノ ー 
ジフ ォ ル ト が 起こ っ た の か を 記録 し 
た 統計 デー タ を 集め て 活用 し ます 
統計 デー タ に は 、 ペー ジ が 単 一 の ス 
レッ ド か ら ア クセ モス され た の か 、 複 
数 の スレ ッ ド か ら 共 有 ア クモ ス さ れ 
た の か 、 ペー ジマ イグ レー ショ ン が 


uk ペー 


発生 し た の か な ど が 記録 きれ ます 。/ 
proc/vymstat で 参照 で きる 、 numa_ 
balancing の 統計 値 を 表 1 に 示し ま 
し た 。 

スケ ジュ ー ラ ー は 統計 デー タ を 基 


numa_balanong が 変え た Pate Table Entry の 数 
numa_balancing が 変え た Huge Pate Table Entry の 数 
ーー ニーーー- ト の 総数 

juma_hints_faults の うち 、 ED の 2 ド 位 置 と ペー ジフ ォ 
ルト 時 の ノー ド 位 置 が 同じ だ っ た 数 
ペー ジマ イグ レー ショ ン の 成功 数 


に 、 主 に 2 つの 判断 を 下 し ます 

1 つ は 、 ペ ー ジ スキ ャ ン の 頻度 で 
す 。 例 えば 複数 の スレ ッ ド か ら 共 有 
アク セス され る ペー ジ の 場合 、 そ れ 
ら ス レッ ド が 複数 の NUMA ノード 
に 分 散 し て いる と 、 最 適 な ノー ド を 
決め られ ませ ん 。 こ の よう な べ 
が 多い 場合 は 、、 ス キャ ン の を ド 
げ ま す 。 逆 に 、 ペ ー ジ が 単 一 の スレ 
ッ ド か ら ア クセ ス さ れ 、 メ モリ ー マ 
イグ レー ショ ン が 多く 発生 し て いる 
場合 は スキ ャ ン の 上 度 を 高め る こと 
に より 、CPU と メモ リー の バラ ンス 
が 悪い 状況 を 早期 に 改善 で きま す 

も う 1 つ は 、 プ ロモ ス が 動作 する 
CPU の 決定 で す 。 CPU が すべ て 空 
いて いれ ば 、 メ モリ ー に 近い CPU 
で スレ ッ ド を 走ら せれ ば 済む わけ で 
す が 、 そ う で は な い 場 合 に は 適切 
な CPU を 割り 出す 必要 が あり ます 。 
カー ネル は メモ リー アク モス の 統計 
情報 か ら プ ロ セ モス が 走る の に 最適 
な NUMA ノ ー ド を 判断 し 、 ス ケ ジ 
ュー ラー に ヒン ト 情 報 と し て 渡し ま 
す 。 ス ケ ジ ュ ー ラ ー は ヒン トト 情報 を 
基 に 、 可能 な ら ば プロ セス を 最適 な 
CPU に 移動 し ます 

調整 が 複雑 な 機能 と いう こと も 
あり 、NUMA 自 動 バ パラ ンス は これ 
か ら も 改善 が 進め られ て いく と 思い 
ます 。 巨大 な メモ リー を 扱う KVM 
の よう な シス テム の 性能 向 上 に つ な 
が る と 期待 され て いま す 。 


付 録 


サー バー だ け で は な く 、 デ スク ト 
ッ プ 機 や ノー ト PC に も 複数 コア を 
備え る CPU が 搭載 され る よう に な 


り ま し た 。 CPU コア 数 が 増え た 場合 
に 問題 に な る の が 、 複 数 の CPU か 


ら 同 時 に アク モス され る 可能 性 の あ 
る メモ リー 領域 の 取り 扱い で す 
ここ で は この 間 題 を 題材 と し て 取 
り 上 げ 、Linux カー ネル で 使わ れ て 
いる 「PER CPU スモ リー」 な どの 
仕組 み に つ いて 説明 し ます 


CPU キャ ッシュ と ライ ン 
CPU か ら メ モリ ー へ の アク モス 
を 高速 化す る た め に 、CPU に は キャ 


⑥ デ ー タ を キャ ッシュ か ら 読 み 出す 


メモ リー へ の デー タ 書 き 込 み 


キャ ッシュ の ライ ン を 改変 


デー タ を 要求 


の デー タ ( ラ イン ) を キャ ッシュ 


に 収め る 


デー タ を 要求 


⑥ ラ イン を キャ ッシュ に 収め る 


⑩ ラ イン を メモ リー に 反映 


ッシュ が 搭載 され て いま す ( 図 1) 
CPU の 仕様 に も 依存 し ます が 、 例 え 
ば ある CPU が 数 バイ ト の メモ リー 
を 読み 出す まず メモ リー か ら キ 
ャ ッシュ に ひと 固まり の デー タ ( ラ 
イン と 呼び ます ) が ロー ド さ れ ま す 
続い て で 、CPU が キャ ッシュ か ら 必 要 
な デー タ を 読み 出し ます 

書き 込む 際 に は 、 い っ た ん キャ ッ 
シュ に ライ ン を 収め (write-alloca 
te)、 キ ャ ッシュ ライ ン に 変更 を 
加え た 後 、 適 切な タイ ミン グ で メ 
モリ ー に 書き 戻し ます 
ck) 

キャ ッシュ 操作 は ライ ン 単 位 で 


(write-ba 


メモ リー 


図 1 高速 化す る た め CPU に は キャ ッシュ が 搭載 され て いる 


キャ ッシュ の ライ ン を 改変 


ーー 
ライ ン を 
キャ ッシュ に 収め る 


⑥CPU 0 か ら CPU 1 へ 
ライ ン を 移動 


タ を 要求 


メモ リー 


ライ ン を メモ リー に 反映 


図 2 CPU 0 に 続い て CPU 1 が 同じ デー タ に 書き 込む 場合 の 流れ 


カー ネル ハッ カー が 教え る Linux メモ リー 技術 


ッシュ と 複数 CPU 


実施 し ます 。 キ ャ ッシュ ライ ン の 
サイ ズ は 、 米 Intel 社 製 CPU に お い 
て は 、64 バ イト と 考え て よい よう 
で す 。 後述 する よう に CPU コア が 
複数 ある 場合 は 、、 こ うし た キャ ッ シ 
ュ の 扱い が 複雑 に アク セス 
効率 が 低下 し ます 

それ で は 、 例 を 挙げ て 具体 的 な 動 
作 を 紹介 し て いき まし ょ う 。 [CPU 
N と 「CPU 1] と いう 2 つの CPU 

ある と し ます 。CPU 0 が デー タ X 
に に き 込 ん だ 後 、CPU 1 が 同 
タ X に 書き 込む 場合 に つい て 考え で 
み ま す ( 図 2) 

まず 、CPU 0 が デー タ X を 合 む 
ライ ン を メモ リー か ら 読 み 出 し て キ 
ャ ッシュ に 収め 、 キ ャ ッシュ ライ ン 
に 改変 を 加え ます 。 こ の 後 、CPU 
1 が 同じ デー タ X に 改変 を 加え る わ 
け で す が 、 メ モリ ー 上 の デー タ X は 
CPU 0 の キャ ュ ラ イン に ある デ 
ー タ X よ り も 古く SC いま 
で 、CPU 0 の キャ ッシュ ラ 
イッ を CPU 1 に 移し ます を の 世 
CPU 0 側 の キャ ッシュ を 消し て 、 
CPU 1 タ X を 独占 的 に 書き 換 
えら れる よう に し ます 

な お 、CPU 0 と CPU 1 が いずれ 
2 タ X を 読み 出す だ け で 書き 換 

な いり 場合 は 、CPU 0 お よび CPU 1 

の 3 ッシュ に 同じ ライ ン が 載っ て 
いる こと も あり ます 


な っ て 、 


フォ ー ル スシ ェアリング 

前 述 の よう に 、 米 Intel 社 製 CPU 
で は ライ ン が 64 バ イト も ある の で 、 
同じ デー タ へ の アク セス で は な く 、 
近く に ある デー タ に アク セス し た た 場 
合 に も キャ ッシュ 間 で の ライ ン 移 動 
が 生じ る 可能 性 が あり ます 


例え ば 、 次 の よう な CPU 番号 を イ 
クス と する カウ ンタ ー の 1 次 
元 配列 に アク セス する 場合 に つい て 
考え て み ま し ょ う 。 


ツ デ ッ ク 


1ong cpu_stat[x] 
(CPU 0 は cpu_stat[0]、CPU 1 は cp 
u_stat[1]、…) 


CPU x が cpu_statlxl に それ ぞ れ 
アク セス する 場合 、long (long int 
型 ) が 8 パイ ト だ と する と 、 


64 バ イト + エ 8 バイ トニ =B8CPU 


8CPU 分 の デー タ が 同じ ライ ン に 
乗る こと に な り ま す ( 図 3)。 各 CPU 
x が 自分 の デー タ cpu_statlx] を 書 
き 換え る ライ ン の 移動 が 発生 
し 、 動作 が 極め て 遅く な っ て し まい 
ます 。 こ うし た 状況 を 「 フ ォ ー ル ス 
シェ アリ ング 」 (False Sharing) と 
呼び ます 。 

キャ ッシュ へ の アク モス を 最適 化 
する た め 、 Linux カー ネル は 各 CPU 
固有 の デー タ 域 を 作成 する 、「PER 
CPU メモ リー]| と いう 機能 を 持っ 
て いま す 。 PER CPU メモ リー は 、 
対 と な る CPU 自身 か らし か 書き 換 
えな いと いう “お 約束 " の 下 に 利用 
で きる カー ネル メモ リー で す 。 各 
CPU 専用 と する こと に より 、 フ ォ ー 
ルス シェ アリ ング を 回 避 で きる と と 
も に 、 メ モリ ー ア クセ ス に お いて ロ 
ッ ク な どの 排他 制御 が 不要 に な り 
ます 。 

使い 方 で す が 、 ま ず 、 次 の よう に 
オプ ジェ クト を 作成 し ます 。 


x = alloc_percPu 
(オブ ジェ クト の 型 ) 


CPU0 CPU1 CPU2 …… 


本 
| 画 


1 つの ライ ン は 64 バ イト 


1 つ は 8 バイ ト 


図 3 CPU ID を 添え 字 に 取る よう な カウ ンタ ー の 1 次 元 配列 
1 つの キャ ッシュ ライ ン に 複数 CPU の デー タ が 混在 する と 、 ラ イン の 移動 が 相次い で 性 能 が 低下 する 。 


(し きい 値 は 16) 
cPuo| io 
カタ cPU1| 5 
ーー 
CPU2 3 
cPus| 1 


正確 な 値 は 
10000 二 10 十 5 十 3+1 三 10019 


カウ ンタ ー の 値 は 10000 
図 4 PER CPU カウ ンタ ー は 精度 を 犠牲 に し て 、 キ ャ ッシュ ライ ン の 相次ぐ 移動 を 避け る 


this_cpu (x) で 各 CPU の ロー カ 
ル デ ー タ に 、 ま た per_cpu (x. cpu) 
で 各 CPU 固 有 の デー タ 域 に ア 
ス し ます 。 各 CPU の デー タ は 、 実 
際 に は CPU ご と に まとまっ た 個別 
の メモ リー 域 に 配置 され 、|this_cpu 
()」 な ど に よっ て アド レス 位置 を 計 
算 し た 上 で アク セス され ます 。 

こう し た 仕組 み に よ り 、 全体 と し 
て は 統一 的 な アク セス 方 法 で 、 効 率 
よく メモ リー に アク セス で きる わけ 
で す 


PER CPU カウ ンタ ー 

関連 機能 の 1 つ に 、PER CPU 機 
能 を 使っ た 「PER CPU カウ ンタ ー] 
が あり ます ( 図 4)。 各 CPU 固有 の 
メモ リー 域 に もち カ ウンター を 持た せ 
精度 を 犠牲 に し て SMP 


る ご と 、 で 、 


性 能 を 引き 上 げ る 機能 で す 


1nt counteri 
per_cpu 1nt pcp_counteri 


各 CPU は pcp_counter を 更新 し 、 
その 絶対 値 が し きい 値 以 上 に な っ た 
ちら counter に 反映 し ます 。 例 えば 、1 
ずつ カウ ント アッ プ す る カウ ンタ ー 
に お いて し きい 値 が 16 な ら 、count 
er へ の アク モス を 1/16 に 減ら すこ と 
が で きま す 。 

た だ し 、 介し 
16 の 場合 に は 、 最 大 で 240 の 誤差 
が 出る こと に な り ま す 。/proc か ら 
読み 取れ る デー タ の 中 に は 、 こ うし 
た 仕組 み で 算出 きれ て いる も の も あ 
る の で 、 値 が 必ず し る 正確 と は 限り 
ませ ん 

CPU が 多い 場合 は 、 OO そる 

細か い 数 値 の 「 正 確 ミ ] に こだわ ら 
な いよ うに し まし ょ う 。 


付 録 

プロ セス に 割り 当て る CPU や メ 
モリ ー の 量 、I/ ひ O や ネッ トワ ー ク 
の 薄 域 を 、 ユ ー ザ ー か ら の 指示 を 
受け て 制御 (制限 ) する 機能 の こ 
と を 「 リ ソー スコ ント ロー ラー] 
と 呼び ます 。Linux カー ネル に は 、 
プロ セス 群 の リソー ス を 管理 する 
「cgroup] と いう 仕組 み が 備わっ て 
いま す 

メモ リー に つい て は 、「memory 
cgroup」 を 用 いて 制御 (リソー スコ 
ント ロー ル ) し ます 。 こ こ で は 、 こ 


の memory cgroup を 取り 上 げ 、 そ 
の 内 部 構造 に つい て 説明 し ます 


メモ リー 使用 量 の 管理 
最新 の memory cgrouD で は 、 ユ 
ー ザ ー プ ロ セ モス の メモ リー や ファ 
イル キャ ッシュ 、 カ ー ネ ル メモ リー 
部 な ど を 管理 で きま す 。 各 me 
mory CgrOuD は カウ ンタ ー を 1 つ 持 
っ て いま す 。 そ し て 、 ペ ー ジ 獲得 
要求 を 受け た 際 の メモ リー 獲得 
制限 に 、 そ の カウ ンタ ー の 値 を 使い 
ます 。 


py CgrOuP 
Gold] 
メモ リー o り s ッ ト 値 =4G バ イト 


Tmemory CgrOUP 


例え ば 、 あ る memory cgroup「Go 
ld] の リミット 値 が 4G パ イト で 、 現 
在 の メモ リー 使用 量 が 3G バ イト だ 
と し ます 。 この memory cgroup|「 Go 
ldq] で は 、 あ と 1G バ イト の メモ リー 
を 普通 に 獲得 で きま す ( 図 1) 

1G パ イト を 超え て メモ リー を 獲 
得 し よう と し た 場合 に は 、 こ の me 
mory cgroup 内 で 保持 し て いる ペー 
ジ か ら メ モリ ー 回 収 を 試み ます 。 つ 
まり 、 こ の cgroup に 所 属し て いる 
プロ セス が 使っ て いる ユー ザー メモ 
リー や ファ イル キャ ッシュ か ら 、 メ 
モリ ー 回 収 が 試み られ る の で す 

これ に より 、 例 えば tar に 2 
テ ァイル 群 の アー カイ プ 作 
memory cgrouD の 配下 で 行う と 、 
メモ リー 回 収 の 分 だ け 所 要 時 間 が 
延び る 可能 性 は ある も の の 、 指 定 し 
た リミット 値 以下 に ファ イル キャ ッ 
シュ の メモ リー 使用 量 を 抑え 
が 可能 で す 。 何 か メイ ン の ジョ ブ を 
の させ た まま 、 その 邪魔 に な ら な 

よう に 別 の 作業 を したい 場合 に 有 

ME 


memory CgrOuP 


カー ネル ハッ カー が 教え る Linux メモ リー 技術 


バー スコ ント ロー ラー 


コン テナー 機能 の 一 部 と し て 、 コ 
ン テ ナ ー ご と に メモ リー 使用 量 を 制 
限 する 目的 に も 使わ れ て いま す - 


スワ ッ プ 使用 量 の 管理 

memory cgrouD で 分 か り に くい 
点 の 1 つ に 、 メ モリ ー お よび メモ 
リー+ ス ワッ プ と いう 、2 種 類 の 
リミット 値 (上 限 値 ) を 持つ こと が 
あり ます 。 こ の よう な デザ イン に な 
っ て いる の に は 、 理由 が いく つか あ 
り ま す 

例え ば 、 メ モリ ー の リミット 値 を 
100M バ イト に 設定 し た と し ます 
この cgroup で 200M パ イト の ユー ザ 
ー メ モリ ー を 持つ プロ セス を 動か す 
と 、 制限 内 に 収まら な い メ モリ ー が 
スワ ッ プ に 追い 出 き れ ま す 。 そ の 結 
果 、 メ モリ ー を 100M パイ ト 、 ス ワ 
ッ プ を 100M バ イト 使う こと に な 
ます 

ここ で 、 ユ ー ザ ー プ ロ セ ス の ヌメ 
モリ ー サ イズ が 1T バ イト に 広がっ 
た と し ます 。 す る と 、 メ モリ ー を 
100M バ イト 、 ス ワッ プ を 900M パ バイ 


「Silver」 TBronze」 イン : 
メモ リー の リミット 値 =2S バ イト 。 メモ リー の リミット 値 = な し に は 所 議 


プロ セス a 
(1@ バ イト ) 


プロ セス b 
(1G バ イト ) 


プロ セス c 
(1@ バ イト ) 


計 3@ バ イト 使っ て いる の で 、 こ 
メモ リー を 獲得 で きる 


この プロ セス の メモ リー 使用 量 は 
の cgroup 内 で は あと 1G バ イト の 最大 2G バ イト に 制限 され る 


は 制限 され な い 


図 1 memory cgroup 「Gold] で は 、 あ と 1G バ イト の メモ リー を 獲得 で きる 


これ ら プ ロ セ ス の メモ リー 使用 量 


ト 使 う よ う に な り ま す 。 ス ワッ プ を 
こん な 大 量 に 占有 可能 な 状態 は 鹿 
まし く な い 場 合 も 多い の で 、 メ モリ 
ー だ け で は な く ス ワッ プ も memory 
cgrouD で 管理 する よう に な っ た の 
で す 。 

開発 中 の 議論 に お いて は 、「 ス 
ワッ プ に リミット 値 を 設け る | と 
いう 話 も あり まし た 。 そ の 場合 
に は 、 カ ー ネ ル スワ ッ プ デー モ 
ン の kswapd が メモ リー を スワ 
ッ プ アウ ト き せる と いう 決断 を 
し た 際 、 ス ワッ プ の リミット 値 
を チェ ッ ク す る 必要 が 生 し ます 。 
kswapd な ど シ ステ ム 全 体 を メン 
テ ナ ン ス する プロ グラ ム の 動作 は 、 
極力 妨げ な いよ うに する こと も 重要 
で す 。 そ こ で 、 スワップ に リミット 
値 を 設け る の で は な く 、 メ モリ ー+ 
スワ ッ プ の トー タル で リミット 値 を 
持つ よう に 作ら れ ま し た 

合計 値 な の で 、 情報 が メモ リー に 
あっ て も 、 ス ワッ プ に あっ て も 同様 
に カウ ント され ます 。 例 えば 、ksw 
apd が メモ リー を スワ ッ プ アウ トミ 
せ て も 、 メ モリ ー+ ス ワッ プ の 値 に 
変化 は 生じ ませ ん 。 ユ ー ザ ー 設 定 の 
memory cgrouD の リミット 値 は 、 カ 
ー ネ ル の メモ リー 管理 機構 が 行う 
スワ ッ プ アウ ト に 干渉 し な いと いう 
こと で す 。 

cgroup の 設定 に よっ て シス テム 
全体 の メモ リー 回 収 の 挙動 に 影響 
を 与え る 動作 (例え ば 、 プ ライ オ 
リティ を 付け る な ど ) に つい て は 
まだ 議論 が 続い て いま す 。 近 い 将 
来 に 実装 され る と は 思い ます が 、 皆 
が 納得 で きる アル ゴリ ズム を 考え 
出す の に は 頭 を ひね る 必要 が あり そ 


eo 


う で す 。 


非 cgroup 配 下 


アク ティ ブ LRU 
非 ア クティ ブ LRU 


! 
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memory CrOUuP 
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mermory CgrouD 


「Gold」 「Silver」 
アク ティ ブ LRU アク ティ ブ LRU 
非 ア クティ ブ LRU 非 ア クティ ブ LRU 
図 2 メモ リー 回 収 の 際 は 全 memory cgroup を 順に 調べ る 
メモ リー 回 収 の 動作 が 変わ る カウ ンタ ー の 工夫 


memory cgroup 単位 で の メモ リ 
ー 回 収 と 、 シ ステ ム 全 体 で の メモ 
リー 回 収 が 両立 する よう 、memory 
cgrouD を 組み 込ん だ 場合 の メモ リ 
ー 回 収用 LRU (Least Recently Us 
ed : 最 も 長期 間 使わ れ て いな い プ ロ 
ッ ク を 割り 出す アル ゴリ ズム ) に は 
上 夫 が 放 ら きれ て いま す 
基本 的 に は memory cgroup 単 位 
に LRU を 保持 し て お り 、 シ ステ ム 
全体 か ら メ モリ ー 回 収 を 行う 場合 
は すべ て の memory cgroup を 順番 
に スキ ャ ン す る よう に な っ て いま す 
( 図 2) 。 
memory cgroup が ある 場合 は 、 
memory cgrouD を 一 つ ひ と つ 調 べ 、 
それ ぞ れ の LRU か ら 回 収 す る メモ 
リー を 見 つけ ます 。 そ し て 、 各 me 
mory cgrouD が 持つ ペー ジ 数 や 、 直 
近 の アク セス 動向 を ベー ス に 、 ヌ メモ 
リー を 回 収 す べき か どう か 決定 する 
の で す 。 
ちな み に memory cgrouDp が な い 
場合 は 、 各 NUMA ノ ー ド が 持つ メ 
モリ ー の LRU リ スト か ら 回 収 する 
メモ リー を 見 つけ ます 。 


前 述 し た よう に 、memory cgrouD 
は メモ リー 量 を 数 える カウ ンタ ー を 
持っ て いま す 。 普 通 に カウ ンタ ー を 
持つ と CPU 数 が 増え た 際 に 性 能 の 
ポト ルネ ッ ク に な る の で 、 前 回 説明 
し た PER CPU カウンター の よう な 
作り に な っ て いま す 。 精 度 が 低い 代 
わり に 、 性 能 が 高い カウ ンタ ー と い 
うこ と で す 。 こ れ に より 性 能 の オー 
パー ヘッ ド が 低減 され る 半面 、me 
mory.usage に 表示 きれ る メモ リー 
使用 量 の 正確 性 は 失わ れ て いま す 。 
1CPU 当たり 最大 128K バ イト ほど 
の 誤差 が 生じ ます 。 

と は いえ 、 タ スク スイ ッ チ 時 な ど 
に 誤差 を 解消 する よう な コー ド に な 
っ て いる の で 、 あ まり 気 に する 必要 
は な いで し ょ う 。 た だ し 、 小 さい 
プロ グラ ム を 作っ て memory cgro 
up の 動き を 見 よう と し た 場合 な 
ど は 、 期 待 と 少し 異な る memory. 
usage の 値 に な る の で 注意 し て くだ 
さい 

cgroup に 関し て は 、 第 6 章 で 詳し 
く 解 説 し て いま す 。 そ ちら も 参照 し 
て くだ きい 。 


| 本 書 で の Linux コマ ンド の 表記 に つい て 


コマ ンド は 通常 、「 端 末 】 と いう アプ リケーション を 使っ て 入力 


し ます 。 「 端 末 」 や 「terminal] を 検索 する か 、 メ ニュ ー を た どっ 
て 起動 する と 、「$] と いう プロ ンプ ト が 表示 され る 画面 が 開き ま 


す 。 こ こ に コマ ンド を 入力 し ます 


本 書 で は 、 


$ mkdir nikke1-busfness 
-pub1tcation ロ 


の よう に 、2 行 目 (改行 後 ) の 行頭 に スペ ー ス が な い 場 合 は 、 


$ mkdfr nikkei-business-publtcatfon 器 


S コマ ンド 名 品 


と 記載 し て いま す 。 行頭 の 「$」 が 画面 上 の プロ ンプ ト を 表し て い 


と いう コマ ンド (「nikkei-business-pulication] ディ レク トリ ー を 


ます 。 品 は [Enter] キー の 入力 を 意味 し ます 


「$」 は 一 


般 ユ ー ザ ー 権 限 を 指し て いま す 。 管理 者 (root ユ ー ザ 


ー) の 権限 で は 「*] に 変わ り ま す 。 # の ある コマ ンド は 、「sul 
コマ ンド を 使っ て root ユ ー ザ ー の パス ワー ド を 入力 し て 実行 する 


必要 が あり ます 。 Ubuntu で は 「sudo -i] で す が 、 通 常 は 一 般 ユ 


ー ザ ー 権 限 で 「sudo] を 使い ます 


また 、 長 い コ マン ド は 改行 し て 記載 し て いま す . 


た だ 、 そ の ま 


ま 改 行 し て 記載 する と 、 改 行 部 分 が 単語 と し て 1 語 な の か 2 語 な 


の か 分 か り づ らく な り ま す 。 そ こ で 、 次 の よう な ロー カル ルー ル を 
設け て いま す . 


作成 する ) を 表し ます 


3 mkdir nikkef-business 


-publ1cat1on 器 


の よう に 2 行 目 (改行 後 ) の 行頭 に スペ ー ス が ある 場合 は 、 
$ mkdfr nikkei-busfness -publtcatfon 


と いう コマ ンド (「-pulication] と いう 存在 し な い オ プシ ョ ン を 付 
け て 「nikkei-business] ディ レク トリ ー を 作成 する ) を 表し ます 。 


総論 

第 1 章 、 
第 4 章 
第 5 章 
第 6 章 


第 7 章 
第 8 章 
付録 


還 著 者 一 覧 

末 安 泰三 、 高橋 正和 、 介 澤 定 之 、 青田 直 大 、 吉 川 拓哉 、 伊藤 和夫 、 
平松 雅巳 、 像 商 郎 、 藤 田 稼 、 福 安 徳 見 、 米 田 聡 、 高 田 哲生 、 石 
崎 見 朗 、 金田 和 大 、 鈴木 章 太 、 牧田 俊明 


本 理 の 記事 は 、 以下 の 日 経 Linux の 記事 内 容 を 加筆 修正 し た も の で す 。 


2014 年 2 月 号 特集 1 

第 2 章 、 第 3 章 2014 年 2 月 号 特集 1、 2014 年 9 月 号 特集 1 
2014 年 2 月 号 特集 1 

2014 年 9 月 号 特集 1 

2014 年 5 月 号 一 8 月 号 連載 「 カ ー ネ ル ハッ カー が や さ し く ひも 
解く Linux] 

2014 年 5 月 号 … 10 月 号 特 別 連載 「 初 心 者 で も すん な り 分 か る 
Linux カー ネル の 仕組 み ] 

2008 年 12 月 号 一 2011 年 10 月 号 運 載 「Linux カー ネル の 新 機 
能 ] 

2013 年 4 月 号 ご 2014 年 4 月 号 連載 「 カ ー ネ ル ハッ カー が や さ 
し く 教 える Linux の 本 質 ] 


コビー 等 ) は 著作 権 流 上 の 例外 を 除き 禁じ られ て いま す 
に よる 電子 デー タ 化 お よび 電子 青 籍 化 は 、 私 的 使用 を 含め 一 


そん 
日 経 BP 社 


り 


『4 
切 放 め られ て お | 


これ 一 角 で 完全 理解 Linux カ ー ネ ル 超 入門 


2014 年 11 月 29 昌 発行 
発行 人 欠席 松 隆志 

押 集 長 信奉 硬 和 春 

届 導 集 長久 手嶋 遂 、 安 東 一 
箇 集 人 牛 生 二郎 、 高 橋 先 和 
表 欧 デザ イン ・ 制 作 介 マ ッ プス 


〒108-8646 東京 者 洪 区 白金 1 丁目 17 番 3 号 

画 訂 正 ・ 捕 足 情報 は 、htip://ilpro.nikkeibp.co.jp/IInux/ の 「 こ れ 一 冊 で 
完全 理解 Inux カ ー ネ ル 起 入門 」 の 「 評 細 ・ 目 次 ] - 補足 情報 ] を ご 気 く だ 
さい 。 

日 経 BP 社 2014 


